网络爬虫之基于XPath爬取百度贴吧图片详细教程（可输入版）

最新推荐文章于 2021-06-23 18:33:44 发布

qq_36914676

最新推荐文章于 2021-06-23 18:33:44 发布

阅读量773

点赞数 2

分类专栏：小demo 文章标签：小demo

本文链接：https://blog.csdn.net/qq_36914676/article/details/86491086

版权

基于XPath百度贴吧图片的爬取

网络爬虫的爬取的流程
爬取步骤详解
完整代码以及解释
小结

本教程阅读需要3分钟

网络爬虫的爬取的流程

网络爬虫的步骤可总结为四步走：
发送请求→接收响应→分析页面→保存数据

爬取步骤详解

1、打开浏览器进入需要爬取的页面

输入自己想要爬取的内容，点击自己想要爬取的链接，并注意页面的url跳转变化
注意图中标注数字的地方，数字顺序无关紧要
输入需要爬取的内容

2、通过插件来获取爬取的信息

本次用到的插件是xpath Finder 以及ChroPath for firefox
通过xpath Finder点击响应的链接，获取其xpath信息，结合ChroPath for firefox，查询其内在的信息，将其分析，提取出有用的数据
通过插件爬取

3、进入页面观察页面内容并完成代码的编写

在这里插入图片描述需要注意页面跳转时候的规律以及变化，方便页面变化的编写

(1)、发送请求

 requests.get(url,params=kw)

(2)、接收响应

response = requests.get(url,params=kw)

(3)、分析页面并提取页面信息

因为本次爬取的内容是图片，所以找到图片的相应信息

			html = response.content
            #etree.HTML 解析页面信息 通过xpath
            lxmlobj = etree.HTML(html)
            #通过xpath进行提取
            #xpath 语法  :// 代表从匹配选择的当前节点选择文档中的节点，而不考虑其位置
            #@ 选取属性
            #//a 的意思是从前面获取的html中提取出a标签

最低0.47元/天解锁文章

qq_36914676

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
网络爬虫之基于XPath爬取百度贴吧图片详细教程（可输入版）

基于XPath百度贴吧图片的爬取网络爬虫的爬取的流程爬取步骤详解1、打开浏览器进入需要爬取的页面2、通过插件来获取爬取的信息3、编写代码(1)、发送请求(2)、接收响应(3)、分析页面(4)、得出结果4、结果验证网络爬虫的爬取的流程网络爬虫的步骤可总结为四步走：发送请求→接收响应→分析页面→保存数据爬取步骤详解1、打开浏览器进入需要爬取的页面2、通过插件来获取爬取的信息3、编写代码...
复制链接

扫一扫