数据采集
嘘,淡定点
世上,没有走不通的路,只有想不通的人。
展开
-
采集微信公众号数据的思路
微信公众号数据的采集有两个途径: 1,搜狗微信:因为搜狗与微信有合作,所以可以用搜狗微信进行采集;这个一个公众号只能采集最新的10条,要是获取历史文章就捉襟见肘了。而且要注意爬取频率,频率高会有验证码,这个平台只能进行小数据量的采集,不推荐。 2,微信公众号平台:这个微信的官方公众号平台,首先得申请公共号(因为微信近期开放了在公众号中插入其他公众号链接的功能,这样才可以进行数据的采集),然后在发表文章那个地方点击超链接就可以进行爬虫的操作。这个可以爬取历史文章,是推荐到的方式。(但要注意的是,这种...原创 2020-08-10 14:59:35 · 1779 阅读 · 7 评论 -
Selenium解决网页懒加载的问题
在进行爬虫等数据采集任务,将爬取的页面保存成mhtml也面的时候,往往会遇到一些页面,存在懒加载的问题,这样就算将网页保存下来,里面的图片等都会丢失。这里介绍使用自动化测试工具解决懒加载的问题。 首先,懒加载是什么?其实网上有很多的专业介绍,这里我就用一句话概括,为了减轻服务器的压力,用户访问页面的时候,不会全部将页面加载,而是当用户浏览到哪,加载到哪。这样的结果就是当你保存页面的时候,有些数据是拿不到的,因为你没浏览到某个地方,这个地方的数据是无法加载的。 解决思路:...原创 2020-08-10 14:40:55 · 2299 阅读 · 0 评论