python爬取百度搜索动态网页

最新推荐文章于 2024-07-29 21:31:04 发布

artzers

最新推荐文章于 2024-07-29 21:31:04 发布

阅读量5.8k

点赞数

分类专栏： python 文章标签： python xml 网络爬虫爬虫 selenium

本文链接：https://blog.csdn.net/lpsl1882/article/details/50741082

版权

python 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

python爬取百度搜索动态网页

我最近学习用python编写一个简单的网络爬虫，刚开始学习scrapy来爬取，觉得费时间学习完scrapy还不如自己用urllib2和lxml直接写一个简单的爬虫，于是下载了firefox和firebug来研究。

Firebug是scrapy官网推荐的xpath分析插件。首先说说，xpath是xml路径语言，xpath可以用于解析xml、html等格式文件中的元素文件路径。我们通过firebug的选择元素按钮（红色框）点击网页中的链接，然后firebug自动跳转到响应的元素代码处，右键弹出菜单点击复制xpath路径，复制下来的xpath路径是：/html/body/div[2]/div[3]/div[1]/div[3]/div[1]/h3/a。这是该链接的精确xpath路径，在lxml的xpath功能函数中输入这个路径，可以获取该链接元素。该元素属性href对应的就是相应的链接。然而我试图查找百度搜索网页中所有类似的链接，我需要一个模糊查找路径。

Firefox中还有两个更加强大的插件：firepath和xpath checker。我安装这两个插件。其中firepath插件附属到firebug上，xpath checker添加到网页界面右键菜单上的viewxpath菜单。

我切换到firebug的firepath标签页，同样通过选择元素按钮选择链接，获取的xpath为.//*[@id='1']/h3/a，显然比firebug直接获取的xpath简单多了。其中.表示从当前路径开始查找，这里自然就是从最上级开始查找；//表示获取当前路径下后续代码指定的所有元素；*表示任意代码，但是必须包含[]内代码指定的属性；@id=’1’表示包含一个属性，名为id，值为1。右键点击网页，选择view xpath，