2019年python爬虫-我破解了中文裁判网数据挖掘-反爬技术哪些事情
从事了5年多的PHP研发和python大数据挖掘,其实在2010-2015年是电商时代,那个时候很多企业开发做电商平台,我负责研发最多也是电商项目,电商平台主要面临的是千万级的并发量、海量图片的存储、还有双十一或者节假日的秒杀活动高并发,这个也是最挑战技术的地方。做过日IP上千万的电商平台技术架构,接触过几百万并发的挑战,做过图片服务器分布式存储、分布式集群、搜索引擎、网络分布式节点架构。但是直到2015年开始 电商就慢慢走下坡了,互联网时代其实已经由电商时代升级到大数据时代。之前是我们说是it互联网,那么现在就是data互联网。大数据+人工智能是目前互联网最大的趋势。谁掌握了数据谁就掌握了财富。
最近自己在用python+mongdb+mysql+多进程+cookie池+代理池 写了一套分布式多进程的某裁判网数据爬虫系统,主要是用来帮助一个朋友做案件的判例数据分析使用,实现了对中x裁判网整个网站的全部数据各种维度的采集和存储,并且根据中x裁判网页的数据结构建立数据库表来存储数据,最后对这些数据分析文本分析、模糊算法分析接触非常有价值的风险控制模型解决方案,很多做技术的朋友爬取某某裁判网的时候会遇到不少,比如封IP爬不了,比如验证码破解了等等问题,我把我的经历和解决方案分享给大家。
(需要爬虫技术交流的朋友欢迎加我qq:2779571288),首先我们先分析它的反爬机制:
一、裁判网如何判断我们是否浏览器访问还是爬虫访问:
想要解决绕过裁判网爬数据的问题,首先我们要分析是在什么情况下才会出现验证码,裁判网是通过以下两种方式进行识别我们是否浏览器访问还是爬虫访问:
方法1:通过识别我们的请求头&#