spider
Torres
积累 成长
展开
-
有关百度spider(伪造百度爬虫)
伪造百度的爬虫只对那些特别弱智的网站有效Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。百度各个产品使用不同的user-agent:产品名称对应user-agent无线搜索Baiduspider图片搜索Baiduspider-i原创 2013-03-07 20:07:18 · 1968 阅读 · 0 评论 -
XPath常用定位节点元素语句总结
XPath常用定位节点元素语句总结将一个XML或HTML文档转换成了DOM树结构后,如何才能定位到特定的节点?XPath实现了这样的功能,它通过DOM树中节点的路径和属性来导航,通过XPath路径表达式可以选择DOM树中的nodes(节点)或是node-set(节点集)。XPath包含了数量超过100的内置函数。这些函数针对字符串值,数字值,日期和时间比较,节操作,顺序操作,布转载 2013-09-25 15:02:32 · 810 阅读 · 0 评论 -
社会化海量数据采集爬虫框架搭建
社会化海量数据采集爬虫框架搭建随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、转载 2013-08-27 14:18:43 · 619 阅读 · 0 评论 -
实战低成本服务器搭建千万级数据采集系统
实战低成本服务器搭建千万级数据采集系统上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构,讲架构一般都比较虚,这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务转载 2013-08-27 14:20:15 · 1428 阅读 · 0 评论 -
HttpClient实现对GZip压缩的Response进行解压
Tomcat、Apache等Web服务器都支持gzip压缩,即响应内容返回给客户端(通常是浏览器,或者HttpClient等)之前先进行压缩,以此来节省宽带占用,网络宽带是瓶颈的集群也会因此而提高响应速度。因为文本在传输过程中是压缩的格式,所以客户端要先进行解压才能解析,若不解压,直接转化,就会出现一段乱码字符串。现在常用的浏览器也都支持gzip。所以用HttpClient来构造HTTP请原创 2013-05-22 11:05:13 · 3842 阅读 · 1 评论 -
larbin main()
int main (int argc, char *argv[]) { global glob(argc, argv); //创建一个global对象 亦即是初始化所要使用到的所有变量及初始配置。这里包括对larbin.conf配置文件的解析 //解析时将取得的起始url放入global::URLsPrio原创 2013-04-26 22:38:31 · 518 阅读 · 0 评论 -
爬虫larbin在Ubuntu下的编译
我的安装环境是:Ubuntu10.04 估计在其他的linux环境下也大体相同的。Larbin编译步骤: 编译前准备:(红色是要替换的为你自己的) 1.确认是否已经安装了build-essential程序包: : sudo apt-get install build-essential2. 确认是否已经安装了内核头文件包::unam转载 2013-04-21 19:22:47 · 1016 阅读 · 0 评论 -
larbin简介
1. larbin简介(百度百科) larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情转载 2013-04-28 07:20:19 · 469 阅读 · 0 评论 -
Larbin的使用
Larbin的使用(1)运行larbin./larbin -c conf_file选项-c是指定使用的配置文件,不指定时默认使用的是larbin.conf当larbin运行起来后进行下面的操作.(2)在larbin.conf的第12行是httpPort 8081,由于这个端口和我机器上的其他应用冲突了,所以我改成了8099.这样你在浏览器中输入local转载 2013-04-25 06:59:56 · 694 阅读 · 1 评论 -
几种开源网络爬虫的简单比较
几种开源网络爬虫的简单比较本文主要介绍几种开源的网络爬虫的简单对比,方便大家对网络爬虫有所了解。爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表:还有其他的一些比如Ubicrawler、FAST Crawler、天网蜘蛛等等没有添加进来。之后主要研究下larb转载 2013-04-16 23:00:48 · 674 阅读 · 0 评论 -
Larbin 设计原理
【转】Larbin 设计原理互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。 要转载 2013-04-23 22:13:03 · 583 阅读 · 0 评论 -
浅谈OCR之Tesseract
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使转载 2013-04-22 15:47:01 · 545 阅读 · 0 评论 -
Linux 抓取网页
比较好的资源地址:http://blog.csdn.net/linuxerhqt/article/details/6564476http://blog.csdn.net/sunboy_2050/article/details/7626929http://blog.csdn.net/sunboy_2050/article/details/7635301转载 2013-04-02 22:09:04 · 425 阅读 · 0 评论 -
反爬虫策略
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十转载 2013-12-18 10:34:44 · 8324 阅读 · 3 评论