有难度的爬虫
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
知网spider
使用selenium模拟浏览器爬取,详情页使用requests请求爬取关键点:数据内容是嵌入子框架iframe的,要switch_to 子框架里面请求详情页的url分为两种,一种直接用URLID构造,另一种要提交参数dbname,dbcode,filename详情页有一个更多的按钮要点击才会展示全文当翻页次数过多会跳出英文数字验证码,开始是一次,后面会不断跳验证码,需要分析两种情况的截...原创 2019-11-03 14:59:05 · 1034 阅读 · 0 评论 -
破解滑块验证码(打码平台)
此处以模拟登录B站为例,链接 >>> https://passport.bilibili.com/login打码平台用的是 联众打码 >>> https://www.jsdati.com/滑块验证码样式如下步骤:使用selenium键入账号密码,点击登录待验证码弹出并加载完毕后,进行全屏截图人工定位图片的位置,利用图片处理软件测量验证码距离全屏截...原创 2019-05-26 12:50:26 · 24818 阅读 · 4 评论 -
解决猫眼字体反爬
猫眼字体反爬具体下来,这两个字体反爬都没有58同城的反爬那样繁琐。58同城反爬具体解决思路:1.获取对应加载的字体文件(可能是对网页上的base64加密字段进行解密,也能是去获得字体文件的url,以.ttf或.woff结尾的文件)2.用1的步骤先下载好一个字体文件并用FontCreater进行查看,按照顺序写出对应字体3.新请求下载一个字体文件并解析这个字体文件(注意这一次请求要与下面的...原创 2019-02-26 23:32:44 · 1751 阅读 · 4 评论 -
58同城招聘字体反爬
可以发现对应的某些字体是以某种编码的形式存在的对应的,在网页里面搜索不到ttf文件,但可以通过network发现@font-face这个东西于是找这个东西发现是经过base64加密的,于是要用正则把这一段提取出来并进行base64的解密并下载,就可以得到字体对应的ttf文件令人费解的是,对于用TTFont加载了这个文件并打印对应的camp发现它的键和值都是在变的,这就变得没有规律可循...转载 2019-02-25 23:15:34 · 1521 阅读 · 0 评论 -
起点中文网字体反爬
要爬取它的数字字体如图首先要获得其字体文件.ttf再网页源代码里寻找下载此ttf文件并在FontCreator里查看用一个新字典把英文对应成数字和 . 就可以了,然后对应的键值关系进行替换步骤:1.用re把.ttf文件下载下来并用fontTools库进行解析,文件是动态加载的2.找到文件里字体对应的编码(变的)对应于数字字典里的数字3.进行编码和数字的替换并组合成字符串要注意...原创 2019-02-22 11:48:49 · 1638 阅读 · 0 评论