爬虫
文章平均质量分 59
请针对我谢谢
这个作者很懒,什么都没留下…
展开
-
用python基础语法简单写个原生小爬虫获取主播排名(上)
导读在学习python的小白大军里,相信不少人是奔着往爬虫方向走的。尤其是零基础的小伙伴,一套基本语法学习下来,发现离自己去写爬虫的目标好像依然有很长一段路,也有不少人放弃了。其实,只要你把基础语法学好了,已经具备了编写一个原生爬虫的能力了,只是你自己不知道而已。今天给大家讲讲,怎么把自己学到的东西串联起来做个原生爬虫。知识储备1、import导入用法2、for循环的运用3、...原创 2018-08-29 23:57:17 · 1879 阅读 · 0 评论 -
用python基础语法简单写个原生小爬虫获取主播排名(中)
这段时间一直在忙着个人项目,今晚终于挤出点时间继续写了。废话少说,接着上一篇的内容继续开讲!五、转化内容 接下来我们要对获取url的方法进行一些改造 def __get_content:(self): r = request.urlopen(Spider.url) htmls = r.read() htmls = ...原创 2018-09-12 00:15:37 · 1237 阅读 · 0 评论 -
用python基础语法简单写个原生小爬虫获取主播排名(下)
最近在忙着写自己的线上展示项目,很久没更新博客了。想着之前落下原生爬虫的坑,今天把它补全一下。本文将直接引用上一篇里用到的代码和变量继续下去,如果有不懂的小伙伴请查看前两篇。传送门: 用python基础语法简单写个原生小爬虫获取主播排名(上)传送门:用python基础语法简单写个原生小爬虫获取主播排名(中)##八、最终精炼在上一步return得到的anchors列表,其实里面已经包含了...原创 2018-10-02 00:14:50 · 1031 阅读 · 0 评论 -
关于scrapy中request过滤问题
问题起因由于scrapy中有自带的spidermiddlewares去过滤我们yield进来的request请求,很多时候会导致爬取数据缺失会直接一部分跳过。常见情景:可以发现,最常见的就是spidermiddlewares.offsite过滤,官方文档也说明了:我收到了 “Filtered offsite request” 消息。如何修复?这些消息(以 DEBUG 所记录)并不...原创 2018-11-14 12:33:29 · 1969 阅读 · 0 评论 -
关于解决爬取拉勾全网遇到的302重定向问题的一些记录
问题背景没想到,拉勾再次进行了一番反爬策略的更新,不再是针对爬取频率、user-agent锁定等方案去反爬了,爬取的难度也增加了一些。今天发现,如果单纯地使用scrapy的crawlspider去做全网爬取,会出现如下问题:就是重定向到登录页面,增加了登录验证才能进行内容访问的逻辑,但接下来却发现并没有这么简单。问题分析分析一:如果单纯只是需要登录才能爬取,那么只需要用selen...原创 2018-11-18 23:53:26 · 5961 阅读 · 4 评论