前言
最近发现一个十分有趣的网站(狗头保命),一些影视剧里让人血脉膨胀的镜头制作成的gif图片,满满的都是全是爱,作为一个合格的小爬虫,不把它都放进‘作业’文档里怎么行
爬取目标
网址:GIF出处
工具使用
开发工具:pycharm
开发环境:python3.7, Windows10
使用工具包:requests,lxml
重点内容学习
- requests使用
- xpath解析数据
- 获取gif数据
项目思路解析
首先明确自己需要采集的目标数据网址
通过requests工具包发送网络请求
翻页通过改变url
http://gifcc.com/forum-38-{
}.html
转换当前页面数据
通过xpath方式提取网页数据
提取的数据为a标签的值
我们需要的是动态图
gif在详情页面
url = 'http://gifcc.com/forum-38-{}.html'.format(page)
response = RequestTools(url).text
html = etree.HTML(response)
atarget = html.xpath('//div[@class="c cl"]/a/@href')
for i in atarget: