python爬虫入门案例day06:QianTu

python爬虫入门案例day06:QianTu

七夕文化,农历七月七日是牛郎织女相会之日,七夕文化宣传离不开海
报宣传,七夕文化中的牛郎织女神话传说歌颂了忠贞不渝的婚爱观,体
现了人们对理想爱情的向往和追求,它传承并发扬了中华民族的传统美
德,体现的是一种强烈的责任心,好了话不多说,下面直接进入爬虫
``
``

开发环境

1、window11
2、python3.7
3、PyCharm Community Edition 2021.2.1
4、双核浏览器
5、浏览器自带开发者工具

网站分析

    在下拉网页的过程中发现,不会加载出新的图片,且网页进行了翻页处理,
    点击下一页网页网址就会发生变化,对网页进行抓包,对数据包中返回的
    数据进行查找data-original,发现能查找到海报的链接,如图:

在这里插入图片描述

在这里插入图片描述

数据解析分析

  一眼可以看出海报链接数据结构简单,可以直接使用re进行解析,也可以选
  择使用xpath网页元素标签定位来解析海报链接,这里我们使用re进行爬虫
  程序的开发

源代码

请添加图片描述

注意要点

网页源码编码格式为gbk,如图:

在这里插入图片描述

爬取到的七夕海报

在这里插入图片描述

知识点总结

1、我们在分析网页的过程中,一定要先确定网页是静态网页还是动态网页,其
次,再去确认我们要爬取的数据是否通过js代码渲染;
2、我们爬虫最基本的反爬手段就是请求头中添加真是浏览器的user-agent,
有些网站服务器会检查请求头中是否有Referer;
3、网页需要进行翻页时,在已知页数的情况下,我们选择for去拼接待爬取的
url;
4、在使用re解析数据时,一定要先对正则字符串进行编译,re.compile('正则字符串')5、在爬虫开发过程中尽可能多的去使用yield关键字;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

自学互联网

努力帮助更多的人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值