数据抓取
eniluzt
http://www.enilu.cn
展开
-
数据抓取之反爬虫规则:CSRF防御处理及异步请求处理
同事在做数据抓取的时候,发现该提交的参数都提交了,但是返回的数据总是提醒“非法的请求或者超时”;我拿过来检查了半天也没见查出问题,无奈对比了下这个页面和另外一个页面的http头信息,端倪出来了,这页面http头信息多了个X-CSRF-Token的参数。这是什么东东,没见过,于是谷歌科普了一下。 简介简单来说:CSRF全称:Cross-site request forgery,中文翻译为跨站请求伪造,原创 2015-12-17 11:21:19 · 6807 阅读 · 0 评论 -
数据抓取之反爬虫规则:使用代理和http头信息
之前说个数据抓取遇到的一个坎就是验证码,这次来说另外两个。我们知道web系统可以拿到客户请求信息,那么针对客户请求的频率,客户信息都会做限制。如果一个ip上的客户访问过于频繁,或者明显是用程序抓取,肯定是要禁止的。本文针对这两个问题说下解决方法。其实针对上述两个问题,解决方法已经很成熟了,无非就是买代理和在http请求中加入头信息伪装为浏览器请求。本文说下具体操作使用代理首先购买代原创 2015-11-30 09:21:43 · 5783 阅读 · 0 评论 -
数据抓取之反爬虫规则:验证码识别
数据抓取过程中,验证码是一个必须面对的坎。总体来说验证码识别分两种,机器识别和人工识别,随着现在验证码越来越变态,要想机器识别验证码已经越来越难了,典型的入12306那种已经更改为图像识别,而不是简单文字识别了。验证码识别技术有很多,这里仅总结自己在项目中用的的两种方式:基于开源的Tesseract-OCR的技术商业的验证码识别服务,这里就不说服务商的名字了,不广告,有需要的可以邮件联系,原创 2015-11-30 09:18:48 · 8662 阅读 · 1 评论 -
数据抓取之数据抓取流程
公司的数据抓取系统也写了一阵子了,是时候总结下了,不然凭我的记性,过一段时间就忘的差不多了。打算写一个系列将其中踩过的坑都记录下来。暂时定一个目录,按照这个系列来写:数据抓取流程,以公示网四川为例子,介绍整个数据抓取工作的流程 反爬虫规则:验证码识别,介绍easyocr和uuwise的使用点击查看反爬虫规则:使用代理,和模拟浏览器头信息访问点击查看今天就先来说下数据抓取的大致工作流程.原创 2015-11-30 09:16:35 · 13459 阅读 · 2 评论 -
数据抓取之性能优化第一弹
数据抓取本身流程很简单,但是当遇到网站的种类变多或者要采集的数据变多的时候,性能问题会称为数据抓取中要首要解决的问题。 这几天同事在测试采集数据的时候总是遇到反应很慢的情况。今晚趁着洗完澡脑子清醒,针对部分问题重构了下;做下记录。这次遇到的问题主要是代理的问题,场景是这样的:我有100个代理,系统初始化的时候,我把这100个代理中放到一个队列(ArrayBlockingQueue)中。然后平原创 2015-12-24 09:07:53 · 867 阅读 · 0 评论 -
手把手写个爬取it博客的网站
陆陆续续折腾一周的网站上线了,地址在这里http://itblog.enilu.cn这个网站主要汇聚了一些优秀的IT类博客的文章索引,用户在这里就可以看到全网很多大牛和牛X团队的技术博客,可谓干货满满。 后续会继续添加新发现的牛人博客本篇是概览,接下来会花费以下几篇来一步步说明如何实现这个网站,提纲先列在这里,后面会根据实际情况略作调整:0.手把手写个爬取IT博客的网站-提纲1.手把手...原创 2018-07-25 18:53:38 · 285 阅读 · 0 评论 -
手把手写个爬取it博客的网站-技术选型
陆陆续续折腾一周的网站上线了,地址在这里http://itblog.enilu.cn这个网站主要汇聚了一些优秀的IT类博客的文章索引,用户在这里就可以看到全网很多大牛和牛X团队的技术博客,可谓干货满满。针对这个网站的实现过程,分为8篇文章分别说明:0.手把手写个爬取IT博客的网站-提纲1.手把手写个爬取IT博客的网站-需求分析2.手把手写个爬取IT博客的网站-技术选型3.手把手写个爬取...原创 2018-07-27 16:24:41 · 426 阅读 · 0 评论 -
手把手写个爬取it博客的网站-框架搭建
陆陆续续折腾一周的网站上线了,地址在这里 http://itblog.enilu.cn这个网站主要汇聚了一些优秀的IT类博客的文章索引,用户在这里就可以看到全网很多大牛和牛X团队的技术博客,可谓干货满满。针对这个网站的实现过程,分为8篇文章分别说明:0.手把手写个爬取IT博客的网站-提纲1.手把手写个爬取IT博客的网站-需求分析2.手把手写个爬取IT博客的网站-技术选型3.手把手写个爬...原创 2018-07-27 17:47:06 · 261 阅读 · 0 评论