- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 水文一篇
最近在爬拉勾,遇到一些问题,给后来的小伙伴总结一些经验。这里我们只谈技术,不谈代码。如果不是为了学习经验的话,还请移步百度。首先说一下拉勾的反爬:IP频率限制,头信息限制,cookie时时验证。IP频率限制:这是最常用,也是最有效的反爬机制之一,并没有测试拉勾的爬取阈值是多少。有兴趣的可以自己去测一下。头信息限制:拉勾对头信息的要求很高,如果你的头信息不全,会得到302或者无法访问的情况,...
2019-04-26 11:58:58 864 1
原创 字体反爬之实习僧
字体反爬是爬虫不可避免的一道关卡,因为这是成本比较低,而且效果还不错的一种方式。今天我们先看看实习僧的字体爬虫怎么破解。首先我们先随便搜索一个职业,https://www.shixiseng.com/interns?k=数据库&p=1。F12查看源码发现,职业的某些汉字字母和所有数字都是框框,这基本可以确定使用了自定义字体。这里可以看到li标签有一个font属性,点击一下这个标签,右...
2019-04-21 14:45:46 1052 2
原创 scrapy使用心得(入门教程)
scrapy官网:https://doc.scrapy.org/en/latest/topics/settings.html基本上没有什么教程可以媲美官方文档的,所有的教程不过是在解读官方文档。所以,如果你有耐心的话可以自己看官方文档。使用谷歌浏览器自带的谷歌翻译可以看得懂,不像python官方的文档,机翻出来基本天书。关于各组件的功能,我觉得这个博客写的很好。可以看一下https://www...
2019-04-20 13:21:31 2520
原创 异步代理池
前言我们从代理商买了代理后,代理商提供的接口返回的代理其实可用率还是值得深思的。如果你有钱,买的是代理商自建的代理,那可用率很高,也就不需要使用代理池筛选了。如果像我这样的学生党,只能买得起测试级别的代理,这种代理一般是代理商扫描出来的,可用时间和可用率可想而知,这样就需要一个代理池筛选出有用的代理并提供接口给爬虫。既然只是为了测试代理的可用性,那么asyncio+aiohttp再合适不过了(...
2019-04-16 18:06:13 312
原创 B站视频下载
看B站的时候,有时候看到很喜欢的总想下载下来,虽然APP里提供了下载,但奈何下载的格式不知道是什么格式,无法在其他播放器里看,于是就想下载到本地。当然,就目前而言,WiFi和流量其实足以替代大部分硬件存储。所以这个需求不是很高,只是个人爱好。...
2019-04-15 18:33:27 9099 1
原创 抓取B站所有用户信息(11/29更新数据)
有时候没有实际需求,那学习就只能从爱好入手了。 目前我所想到的一些感兴趣的任务有,B站所有用户、B站视频下载、B站弹幕和评论分析(这个就有意思了,弹幕和评论是可以知道是谁发的,那么当你有了B站所有弹幕和评论的时候,你就可以从一个人发的弹幕和评论分析这个人的性格特点,不过想要所有数据,这几乎是不可能的,代理数量和质量达不到)、虎牙和斗鱼直播视频和弹幕实时获取(主要是没时间去看,只能下下来空闲的时候...
2019-04-14 10:31:07 18075 17
验证码数据集.zip
2020-07-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人