基于XPath百度贴吧图片的爬取
本教程阅读需要3分钟
网络爬虫的爬取的流程
网络爬虫的步骤可总结为四步走:
发送请求→接收响应→分析页面→保存数据
爬取步骤详解
1、打开浏览器进入需要爬取的页面
输入自己想要爬取的内容,点击自己想要爬取的链接,并注意页面的url跳转变化
注意图中标注数字的地方,数字顺序无关紧要
2、通过插件来获取爬取的信息
本次用到的插件是xpath Finder 以及ChroPath for firefox
通过xpath Finder点击响应的链接,获取其xpath信息,结合ChroPath for firefox,查询其内在的信息,将其分析,提取出有用的数据
3、进入页面观察页面内容并完成代码的编写
需要注意页面跳转时候的规律以及变化,方便页面变化的编写
(1)、发送请求
requests.get(url,params=kw)
(2)、接收响应
response = requests.get(url,params=kw)
(3)、分析页面并提取页面信息
因为本次爬取的内容是图片,所以找到图片的相应信息
html = response.content
#etree.HTML 解析页面信息 通过xpath
lxmlobj = etree.HTML(html)
#通过xpath进行提取
#xpath 语法 :// 代表从匹配选择的当前节点选择文档中的节点,而不考虑其位置
#@ 选取属性
#//a 的意思是从前面获取的html中提取出a标签