![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫实践
文章平均质量分 77
小土豆豆丁
这个作者很懒,什么都没留下…
展开
-
requests 爬取数据
目录urllib和requestsre正则xpathxpath模糊匹配取文本局部数据bs4 不论是正则,xpath,bs4都是数据解析的工具,下面我大概写一下这三种爬取页面的基本的格式,直接上案例吧,一般用xpath比较多 urllib和requests urllib和requests都是基于网络请求的模块 urllib无法进行UA伪装,所以现在大都用的requests,如果在不需要进行UA伪装即可爬取的页面,我们也可以使用urllib,它更简洁。 re正则 ex = "<li>.*?<a原创 2021-09-22 12:51:57 · 1022 阅读 · 0 评论 -
简单使用requests爬取动态数据
异常的访问请求: 当我们爬取网页的时候,网站后台检测出该请求不是通过浏览器发起的,而是通过爬虫程序发起的。 网站后台通过请求中的User-Agent判定 User-Agent:请求载体的身份标识 什么是请求载体?浏览器,爬虫程序 这里的反爬机制:UA检测 反反爬机制:UA伪装 动态数据的捕获 通过requests模块进行数据抓取无法每次都实现可见即可得 有些数据不是通过浏览器地址栏中的url请求到的数据,而是其他请求请求到的数据。这些通过其他请求请求到的数据就是动态加载的数据 检测网页中是否存在动态加载数据原创 2021-09-18 07:34:56 · 3618 阅读 · 0 评论