Python爬虫总结

最新推荐文章于 2023-04-25 19:32:38 发布

诺亚废船

最新推荐文章于 2023-04-25 19:32:38 发布

阅读量341

点赞数

分类专栏： Python Crawl 文章标签： python

本文链接：https://blog.csdn.net/m0_37752335/article/details/78444783

版权

Python Crawl 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

主要网站采集对象的分析：

1.完全静态的网站；例如百度百科，所要采集的信息主要集中html中，可以通过对html的分析使用requests+BeautifulSoup进行采集或者通过正则表达式对数据进行采集。

2.通过异步加载的方式（ajax），在网页内部通过向后台服务器发送一个请求，来获得类似Json的数据。同样可以用过requests+beautifulsoup通过chrome来找到对应的接口，向接口发起请求来获取相应的数据。

3.通过JS渲染的网页，在原本返回的源代码中无法找到网页中对应的数据，数据由浏览器渲染呈现在屏幕上。此类网站可以通过Selenium+浏览器，通过selenium的一些自动化处理，模仿人浏览网页的操作，将渲染后的html返回，并对此进行数据的采集。

4.微信公众号的数据采集，听说通过anyproxy进行处理。（有待后续研究）

5.APP软件的数据采集。（顶级难度听说需要反编译，有待后续研究）

爬虫中会面对的问题：

1.编码问题
2.网站通过检测同一个ip的访问次数来限制反爬、U-A、模拟登陆时的验证码、cookies（总而言之就是网站设置各种方法来验证访问网站的是人而不是机器，检验的方法初级的就是根据你的一些自身属性数据包括请求头等）

爬虫的基本思路：

从m端入手往往会更容易，在分析web端时候，如果是异步加载尽量找对应的接口，实在没有法子才使用大杀器selenium（由于效率很低）。

下面将从网页的5种类型和可能遇到的问题来详细研究，并给出解决方案。

诺亚废船

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录