python爬虫入门案例day06:QianTu

自学互联网

已于 2022-08-03 21:48:00 修改

阅读量146

点赞数 1

分类专栏： python爬虫入门案例文章标签： python 爬虫开发语言

于 2022-08-03 21:37:49 首次发布

本文链接：https://blog.csdn.net/bboy_longyi/article/details/126148867

版权

Python爬虫七夕文化海报解析 re 网页翻页

关键词由CSDN通过智能技术生成

python爬虫入门案例专栏收录该内容

3 篇文章 1 订阅

订阅专栏

python爬虫入门案例day06:QianTu

七夕文化，农历七月七日是牛郎织女相会之日，七夕文化宣传离不开海
报宣传，七夕文化中的牛郎织女神话传说歌颂了忠贞不渝的婚爱观，体
现了人们对理想爱情的向往和追求，它传承并发扬了中华民族的传统美
德，体现的是一种强烈的责任心，好了话不多说，下面直接进入爬虫
``
``

开发环境

1、window11
2、python3.7
3、PyCharm Community Edition 2021.2.1
4、双核浏览器
5、浏览器自带开发者工具

网站分析

    在下拉网页的过程中发现，不会加载出新的图片，且网页进行了翻页处理，
    点击下一页网页网址就会发生变化，对网页进行抓包，对数据包中返回的
    数据进行查找data-original，发现能查找到海报的链接，如图：

在这里插入图片描述

数据解析分析

  一眼可以看出海报链接数据结构简单，可以直接使用re进行解析，也可以选
  择使用xpath网页元素标签定位来解析海报链接，这里我们使用re进行爬虫
  程序的开发

源代码

请添加图片描述

注意要点

网页源码编码格式为gbk,如图：

在这里插入图片描述

爬取到的七夕海报

在这里插入图片描述

知识点总结

1、我们在分析网页的过程中，一定要先确定网页是静态网页还是动态网页，其
次，再去确认我们要爬取的数据是否通过js代码渲染；
2、我们爬虫最基本的反爬手段就是请求头中添加真是浏览器的user-agent，
有些网站服务器会检查请求头中是否有Referer；
3、网页需要进行翻页时，在已知页数的情况下，我们选择for去拼接待爬取的
url;
4、在使用re解析数据时，一定要先对正则字符串进行编译，re.compile('正则字符串')；
5、在爬虫开发过程中尽可能多的去使用yield关键字；