爬虫实战
文章平均质量分 92
小马AAA
这个作者很懒,什么都没留下…
展开
-
爬取微博话题
最近微博上有一个比较火的话题,叫做耳机对当代人有多重要,很是感兴趣但是刷微博这种事情,太耽误学习了,那又想刷微博又想学习,该怎么办那不如这样吧,写个爬虫,print每条评论,这样我就可以一边敲代码,时不时的看看打印,这多香啊本次实战数据清洗部分极其恶心,我使用的数据库是mysql,那评论里又有很多特殊符号,特殊符号还好,使用mysql的utf8mb4还是可以处理的,但表情就实在是难住我了,...原创 2020-01-16 00:44:40 · 2289 阅读 · 0 评论 -
爬取知乎所有专栏文章
由于难度不高,且自己练手,所以没写多少注释,我大致说下思路一般来说爬取一个网站就是那么几步走1.先使用浏览器逛一逛想爬取的网站,找找规律2.直接发一个傻瓜式请求,试一下能不能获取到想要的数据,万一就得到了呢3.不行的话,换一下请求头中的User-Agent字段这边推荐大家一个模块 – fake_useragent安装: pip install fake_useragent 直接使用p...原创 2020-01-16 00:24:39 · 1817 阅读 · 0 评论 -
自己做一个增量式爬虫
增量式爬虫一.概念顾名思义,增量,也就是增加数量,但是是在原有基础上增加数量,也就是说自动甄别重复数据,只爬取网站最新更新的数据二.应用场景增量式爬虫的应用场景还是挺多的,例如一些新闻网站,时时刻刻都在更新,那么为了保证每次运行程序都不会爬取已经采集过的信息,就需要使用增量式爬虫的思路了爬虫以采集数据为目的,所以只要符合增量式的思想就好了,至于实现方法有好多种,这里我使用比较简单的方法,...原创 2020-01-15 23:44:31 · 537 阅读 · 0 评论