自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 水文一篇

最近在爬拉勾,遇到一些问题,给后来的小伙伴总结一些经验。这里我们只谈技术,不谈代码。如果不是为了学习经验的话,还请移步百度。首先说一下拉勾的反爬:IP频率限制,头信息限制,cookie时时验证。IP频率限制:这是最常用,也是最有效的反爬机制之一,并没有测试拉勾的爬取阈值是多少。有兴趣的可以自己去测一下。头信息限制:拉勾对头信息的要求很高,如果你的头信息不全,会得到302或者无法访问的情况,...

2019-04-26 11:58:58 864 1

原创 scrapy爬取实习僧全站

最近想爬一下各大招聘网站来分析一下,首先我们从实习僧开始。

2019-04-21 15:28:02 821

原创 字体反爬之实习僧

字体反爬是爬虫不可避免的一道关卡,因为这是成本比较低,而且效果还不错的一种方式。今天我们先看看实习僧的字体爬虫怎么破解。首先我们先随便搜索一个职业,https://www.shixiseng.com/interns?k=数据库&p=1。F12查看源码发现,职业的某些汉字字母和所有数字都是框框,这基本可以确定使用了自定义字体。这里可以看到li标签有一个font属性,点击一下这个标签,右...

2019-04-21 14:45:46 1052 2

原创 scrapy使用心得(入门教程)

scrapy官网:https://doc.scrapy.org/en/latest/topics/settings.html基本上没有什么教程可以媲美官方文档的,所有的教程不过是在解读官方文档。所以,如果你有耐心的话可以自己看官方文档。使用谷歌浏览器自带的谷歌翻译可以看得懂,不像python官方的文档,机翻出来基本天书。关于各组件的功能,我觉得这个博客写的很好。可以看一下https://www...

2019-04-20 13:21:31 2520

原创 异步代理池

前言我们从代理商买了代理后,代理商提供的接口返回的代理其实可用率还是值得深思的。如果你有钱,买的是代理商自建的代理,那可用率很高,也就不需要使用代理池筛选了。如果像我这样的学生党,只能买得起测试级别的代理,这种代理一般是代理商扫描出来的,可用时间和可用率可想而知,这样就需要一个代理池筛选出有用的代理并提供接口给爬虫。既然只是为了测试代理的可用性,那么asyncio+aiohttp再合适不过了(...

2019-04-16 18:06:13 312

原创 B站视频下载

看B站的时候,有时候看到很喜欢的总想下载下来,虽然APP里提供了下载,但奈何下载的格式不知道是什么格式,无法在其他播放器里看,于是就想下载到本地。当然,就目前而言,WiFi和流量其实足以替代大部分硬件存储。所以这个需求不是很高,只是个人爱好。...

2019-04-15 18:33:27 9099 1

原创 抓取B站所有用户信息(11/29更新数据)

有时候没有实际需求,那学习就只能从爱好入手了。 目前我所想到的一些感兴趣的任务有,B站所有用户、B站视频下载、B站弹幕和评论分析(这个就有意思了,弹幕和评论是可以知道是谁发的,那么当你有了B站所有弹幕和评论的时候,你就可以从一个人发的弹幕和评论分析这个人的性格特点,不过想要所有数据,这几乎是不可能的,代理数量和质量达不到)、虎牙和斗鱼直播视频和弹幕实时获取(主要是没时间去看,只能下下来空闲的时候...

2019-04-14 10:31:07 18075 17

验证码数据集.zip

kaggle的数据集:https://www.kaggle.com/fournierp/captcha-version-2-images/kernels。可以自行去网站下载

2020-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除