Larbin——一款c++编写的爬虫程序

原创 2012年03月31日 10:10:18
Larbin——一款c++编写的爬虫程序
2009-08-13 22:01
    今天我读了一篇名叫“开源网络爬虫程序(spider)一览“的文章,然后就在列表的末尾看到了这个程序"Larbin",由于它是唯一一个用c++写的,而在所有编程语言中我对于c++是最熟悉的,二话不说就开始找它的程序,打算自己配置运行一下,再看代码研究一下。
我在google 直接输入关键词"larbin",第一页就找到了项目网站
http://larbin.sourceforge.net/index-eng.html
网站上一对E文,但是对我来说最有用的只是download这个关键词。其他两个有用的是两个"how to use larbin"和 "how to custmize larbin"的链接。但是在一开始做配置的时候我觉得不需要看这两个。因为google 上输入关键词"larbin 安装"就出一大堆结果。
其中,有效的一篇文章在这里:
http://www.cgeek.org/?p=68
我在ubuntu中按着它说的做了之后,在make的时候竟然还是出错了。出错信息是fetch文件夹下的file.h有多余的“域“,按着提示把域去掉。再次make的时候就成功了。
还没开始进一步学习,今天就到这了。

http://hsmyy198712.iteye.com/blog/762698


larbin

Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day on a standard PC (with a good network).

语言:C++


学习:C#实现一个简单的爬虫

使用C#做到一个简单的爬虫,获得网页上想要的内容。
  • Tindoc
  • Tindoc
  • 2016年12月14日 22:10
  • 4332

[学习笔记]抓取百度百科词条的爬虫

0.学习笔记来源 https://www.imooc.com/video/10688 1.抓取步骤 2.如何确定抓取策略: 1.url格式 2.数据格式 3.页面编码 点击右...
  • su749520
  • su749520
  • 2018年02月13日 18:47
  • 255

开源爬虫larbin分析

转自:http://www.cnblogs.com/FengYan/archive/2012/02/04/2338630.html 1. larbin简介(百度百科)     larbin是一...
  • Together_CZ
  • Together_CZ
  • 2017年05月29日 15:15
  • 228

一个Python 爬虫程序

一个简单的实现煎蛋网妹子图片爬取的Python脚本# -*- coding:utf-8 -*- ''' version:Python 2.6 standard libs: urllib author:...
  • sinat_22568735
  • sinat_22568735
  • 2017年06月18日 16:45
  • 240

爬虫 正则表达式

库文件 re符号 . : 匹配任意字符,换行符\n除外 :匹配前一个字符0次或无限次 ? :匹配前一个字符0次或1次 .*:贪心算法 .*?:非贪心算法 ():括号内...
  • u014015972
  • u014015972
  • 2016年01月19日 13:21
  • 3609

手把手教你编写-微信机器人

一. 引言      我们都知道,微信提供了多种登录的方式,包括手机端、电脑端以及web端。      web端的登录,我们用Python程序完全可以模拟出来~~(如果你不知道,那也没关系,稍微了解下...
  • cgl1079743846
  • cgl1079743846
  • 2016年07月30日 15:29
  • 17354

larbin使用说明

larbin是一种爬虫工具,我也是前段时间网上看到 Larbin 一种高效的搜索引擎爬虫工具 一文时才知道有这么个东西,初步认定,我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++...
  • adupt
  • adupt
  • 2009年05月22日 17:56
  • 7510

Larbin学习小结

Larbin是一个用C++开发的开源网络爬虫,有一定的定制选项和较高的网页抓取速度。 下图表示了一般爬虫抓取网页的基本过程。 抓取以/Larbin.conf中的startUrl做为种子URLs开...
  • neo_2011
  • neo_2011
  • 2011年11月30日 14:24
  • 7872

2014_新浪微博模拟登陆_python

声明: 该文章是结合马孔多的日记( http://www.douban.com/note/201767245/ )和p418279973的空间( http://hi.baidu.com/e...
  • springzfx
  • springzfx
  • 2014年08月08日 10:02
  • 8096

极客 | Python | 学习笔记01:Python 定向爬虫入门

牛客网-Python开发入门到实战 | 三、Python 定向爬虫入门 | 讲师:极客学院
  • mnlmj
  • mnlmj
  • 2017年07月25日 23:58
  • 353
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Larbin——一款c++编写的爬虫程序
举报原因:
原因补充:

(最多只允许输入30个字)