反爬虫
文章平均质量分 89
半吊子Py全栈工程师
失败的人只有一种,就是在成功之前放弃的人。
展开
-
反击爬虫,前端工程师的脑洞可以有多大?
反击爬虫,前端工程师的脑洞可以有多大?1. 前言对于一张网页,我们往往希望它是结构良好,内容清晰的,这样搜索引擎才能准确地认知它。而反过来,又有一些情景,我们不希望内容能被轻易获取,比方说电商网站的交易额,教育网站的题目等。因为这些内容,往往是一个产品的生命线,必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。2. 常见反爬虫策略但是世界上没有一个网站,能做到完美地反爬虫。如果页面希望能在用户...原创 2018-04-26 10:37:46 · 331 阅读 · 0 评论 -
百度指数 爬虫 更新版
current time: 2019.3.21 正常今天跑了一下数据,发现百度随机返回缺失的数据~~,这就有点坑了对此 我们就只能更换获取数据的接口了,我们更改接口以后,就没有缺失数据的情况了!!!current time: 2018.11.617.23 正常昨天晚上有人跟我说百度指数更新了,今天看了下,更新了下代码个人感觉是降低了难度,极大的减少了请求次数。这一...原创 2018-09-28 17:51:06 · 9259 阅读 · 4 评论 -
汽车之家爬虫(autohome)
项目的请求url类型https://k.autohome.com.cn/detail/view_01cezq86y568r3ad1m6ws00000.html?st=4&piap=0|3170|0|0|1|0|0|0|0|0|1#pvareaid=2112108 以前有写过汽车之家的爬虫,但是有一段时间没有爬了,所以网站也更新了。 现在2018.8.23号的情况是这样,请求...原创 2018-08-23 18:13:57 · 7178 阅读 · 0 评论 -
自定义字符反爬
最近临时受命,要针对采集我司网站的爬虫进行反制。虽然不太熟悉这个领域,但既然分到咱这儿了,那就上呗,有啥说的,谁让咱是“全栈工程师”呢(牛逼吹的大了点)。原本公司已经有了一套字体反爬的机制,但效果还是不很理想。花了一周的时间进行研究,最终在现有反爬基础之上,总结了本文要讲的方案。说是终极方案,是有些吹牛了,大家都知道爬虫和反爬之家的道高一尺魔高一丈的关系。但这个方案可以很大程度上可以...转载 2018-08-16 17:11:04 · 776 阅读 · 0 评论 -
商标局网请收下我的膝盖-反爬与反反爬的奇技淫巧
商标局网请收下我的膝盖-反爬与反反爬的奇技淫巧吴桐神箭手CEO-来shenjian.io,写爬虫,大数据,人工智能115 人赞了该文章今天打算写最后一篇的反爬与反反爬的文章了,毕竟奇技淫巧很多,但是万变不离其宗,熟练掌握JS/HTML/CSS,了解HTTP协议,这是内功。熟练使用chrome,神箭手开发框架,这是称手的兵器。剩下的也就是唯手熟尔。后面打算开一个番外系列,不少人私信问我关于cnn识别...转载 2018-05-24 21:57:56 · 14956 阅读 · 12 评论 -
获取微医评论数据
简单获取微医的数据,只公开60页数据,下一页的time和sign能在当前页面获取到就诊医生需要注意,分2种,一直是有a标签包裹,一直直接是span标签包裹,需要对每个评论单独处理今天就不写存数据库,和多线程了~,import requestsimport reimport timeimport randomfrom lxml import etreeclass WeiYi(objec...原创 2018-06-02 23:22:58 · 1110 阅读 · 0 评论 -
破解"中国裁判文书网"App加密过程
如下截图所示"中国裁判文书网"App(com.lawyee.wenshuapp),我们分析的版本是1.0.0902(提供一个网盘下载地址:http://pan.baidu.com/s/1dFqyAuH)。 我们先来尝试抓包:1)启动安卓模拟器,设置系统代理为Fiddler。2)启动裁判文书网App。3)执行一些操作,比如搜索某关键词,在Fiddler中可以看到对应的HTTP请求和应答数据。如下图...转载 2018-05-25 15:24:51 · 9776 阅读 · 7 评论 -
破解极验(geetest)验证码
破解极验(geetest)验证码最近在搞爬虫的时候在好几个网站都碰到了一种叫做geetest的滑动条验证码,一直没有太好的办法只能在触发这个验证码后发个报警去手动处理一下。http://www.geetest.com/exp_embed是他们官网的样例。 后来研究了下觉得要破解这个验证码有这么几个问题:无法直接通过发送url请求来实现鼠标拖动的动作;实际的背景图片是乱的,并不是我们实际肉眼看到的...转载 2018-05-25 15:10:23 · 31085 阅读 · 9 评论 -
解决猫眼自定义字体的问题-获取影院实时电影拍片或实时票房等
# 思路(字体是不变的,但是字符编码会改变,动态解析字体文件)# 1.爬取准备,获取网页的字体库,使用软件得到相对应数字或汉字对应的编码# 2.在爬取网页的时候,正常获取出需要解码的数字或汉字的编码,# 3.然后利用fontTools.ttLib来对照解析字体库(动态将获取的woff的字体文----件通过库转换成otf格式)# 4.最后获取出需要解码的部分,在替换成对应的字体,然后大功告成...原创 2018-04-26 19:09:52 · 1530 阅读 · 0 评论 -
猫眼电影,自定义字体解决方法
猫眼破解数字反爬获取实时票房一、概览自前期写过汽车之家字体反爬破解实践之后,发现字体反爬应用还是很普遍。这两天有知乎朋友咨询如何实现猫眼票房数据的爬取,这里其实与上面的文章核心思想是一致的,但是操作更复杂一些,本文做一个更详细的破解实践。有对字体反爬还比较陌生的,请参考前文。二、查找字体源猫眼电影是美团旗下的一家集媒体内容、在线购票、用户互动社交、电影衍生品销售等服务的一站式电影互联网平台。201...转载 2018-04-26 11:36:17 · 3175 阅读 · 0 评论 -
汽车之家字体反爬破解实践
汽车之家字体反爬破解实践一、概览爬虫与反爬虫一直是一对天生的对手,反爬手段多种多样,破解手段也应运而生。本文主要介绍一种利用前端页面自定义字体的方式来实现反爬的技术手段,并实践如何技术上破解。(期间多次掉坑,拼接顽强的毅力,仍然坚强的走出来。)自定义字体:@font-face是CSS3中的一个模块,主要是实现将自定义的Web字体嵌入到指定网页中去。具体详细定义见CSS @font-face。二、查...转载 2018-04-26 11:32:07 · 4846 阅读 · 2 评论 -
IT IS *NOT* POSSIBLE TO DETECT AND BLOCK CHROME HEADLESS
转载 地址https://intoli-dot-com.ext.jsproxy.tk/blog/not-possible-to-block-chrome-headless/(直接使用浏览器只带的翻译了)几个月前,我写了一篇名为Making Chrome Headless Untetectable的热门文章回应了一个名为Detecting Chrome Headless的文章作者:Antio...转载 2019-03-11 18:37:32 · 835 阅读 · 0 评论