Python爬虫总结

主要网站采集对象的分析:

1.完全静态的网站;例如百度百科,所要采集的信息主要集中html中,可以通过对html的分析使用requests+BeautifulSoup进行采集或者通过正则表达式对数据进行采集。

2.通过异步加载的方式(ajax),在网页内部通过向后台服务器发送一个请求,来获得类似Json的数据。同样可以用过requests+beautifulsoup通过chrome来找到对应的接口,向接口发起请求来获取相应的数据。

3.通过JS渲染的网页,在原本返回的源代码中无法找到网页中对应的数据,数据由浏览器渲染呈现在屏幕上。此类网站可以通过Selenium+浏览器,通过selenium的一些自动化处理,模仿人浏览网页的操作,将渲染后的html返回,并对此进行数据的采集。

4.微信公众号的数据采集,听说通过anyproxy进行处理。(有待后续研究)

5.APP软件的数据采集。(顶级难度听说需要反编译,有待后续研究)

爬虫中会面对的问题:

1.编码问题
2.网站通过检测同一个ip的访问次数来限制反爬、U-A、模拟登陆时的验证码、cookies(总而言之就是网站设置各种方法来验证访问网站的是人而不是机器,检验的方法初级的就是根据你的一些自身属性数据包括请求头等)
爬虫的基本思路:
从m端入手往往会更容易,在分析web端时候,如果是异步加载尽量找对应的接口,实在没有法子才使用大杀器selenium(由于效率很低)。

下面将从网页的5种类型和可能遇到的问题来详细研究,并给出解决方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值