python爬虫入门案例day06:QianTu
七夕文化,农历七月七日是牛郎织女相会之日,七夕文化宣传离不开海
报宣传,七夕文化中的牛郎织女神话传说歌颂了忠贞不渝的婚爱观,体
现了人们对理想爱情的向往和追求,它传承并发扬了中华民族的传统美
德,体现的是一种强烈的责任心,好了话不多说,下面直接进入爬虫
``
``
开发环境
1、window11
2、python3.7
3、PyCharm Community Edition 2021.2.1
4、双核浏览器
5、浏览器自带开发者工具
网站分析
在下拉网页的过程中发现,不会加载出新的图片,且网页进行了翻页处理,
点击下一页网页网址就会发生变化,对网页进行抓包,对数据包中返回的
数据进行查找data-original,发现能查找到海报的链接,如图:
数据解析分析
一眼可以看出海报链接数据结构简单,可以直接使用re进行解析,也可以选
择使用xpath网页元素标签定位来解析海报链接,这里我们使用re进行爬虫
程序的开发
源代码
注意要点
网页源码编码格式为gbk,如图:
爬取到的七夕海报
知识点总结
1、我们在分析网页的过程中,一定要先确定网页是静态网页还是动态网页,其
次,再去确认我们要爬取的数据是否通过js代码渲染;
2、我们爬虫最基本的反爬手段就是请求头中添加真是浏览器的user-agent,
有些网站服务器会检查请求头中是否有Referer;
3、网页需要进行翻页时,在已知页数的情况下,我们选择for去拼接待爬取的
url;
4、在使用re解析数据时,一定要先对正则字符串进行编译,re.compile('正则字符串');
5、在爬虫开发过程中尽可能多的去使用yield关键字;