Larbin——一款c++编写的爬虫程序

原创 2012年03月31日 10:10:18
Larbin——一款c++编写的爬虫程序
2009-08-13 22:01
    今天我读了一篇名叫“开源网络爬虫程序(spider)一览“的文章,然后就在列表的末尾看到了这个程序"Larbin",由于它是唯一一个用c++写的,而在所有编程语言中我对于c++是最熟悉的,二话不说就开始找它的程序,打算自己配置运行一下,再看代码研究一下。
我在google 直接输入关键词"larbin",第一页就找到了项目网站
http://larbin.sourceforge.net/index-eng.html
网站上一对E文,但是对我来说最有用的只是download这个关键词。其他两个有用的是两个"how to use larbin"和 "how to custmize larbin"的链接。但是在一开始做配置的时候我觉得不需要看这两个。因为google 上输入关键词"larbin 安装"就出一大堆结果。
其中,有效的一篇文章在这里:
http://www.cgeek.org/?p=68
我在ubuntu中按着它说的做了之后,在make的时候竟然还是出错了。出错信息是fetch文件夹下的file.h有多余的“域“,按着提示把域去掉。再次make的时候就成功了。
还没开始进一步学习,今天就到这了。

http://hsmyy198712.iteye.com/blog/762698


larbin

Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day on a standard PC (with a good network).

语言:C++


多线程C++爬虫程序

  • 2011年05月10日 21:36
  • 7KB
  • 下载

网络爬虫程序源码 c++写的

  • 2008年09月11日 19:46
  • 66KB
  • 下载

web测试常用python代码——爬虫程序

#coding=utf-8 #爬虫程序——起点 ''' Created on 2012-4-18 @author: xxx ''' import urllib2 import Queue impo...

网络爬虫程序源码 c++写的

  • 2012年09月06日 13:55
  • 5KB
  • 下载

南燕新闻自动生成软件——爬虫程序

南燕新闻自动生成软件——爬虫程序 自己编写爬虫程序实现对北京大学国际法学院新闻的自动爬取和数据库存储: 国法新闻主页:http://stl.pku.edu.cn/zh-hans/news/%E6%...

南燕新闻自动生成软件——scrapy爬虫程序

使用scrapy爬虫框架爬取北京大汇丰商学院的新闻,新闻网址: 1.定义Item.py容器类文件,代码如下: import scrapy class PhbsNewsItem(scrapy.Ite...

第一个爬虫程序实例——初学者

package spider; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutpu...

NET多线程编程(14)——用C#实现蜘蛛/爬虫程序的多线程控制

2009-09-18 23:44:57     标签:休闲 C# 实现蜘蛛 爬虫程序 多线程控制       在爬虫/蜘蛛制作(C#语言)文中已经介绍了爬虫实现基本思路方...

基于R+Oracle的海洋浮标数据显示系统(二)——网络爬虫程序和自动导入

这两天一直在改老师的项目所以没有更新,今天更新一下博客,讲一下怎样利用R语言自动从网上获取表格形式存储的数据并且存储为.csv文件。 一、获取数据   R语言得益于其开源,所以就有很多大牛们以...

利用QT编写一个简单爬虫程序

从高中到大学,一直在固定小说网中下载小说,小说网停机过好几次但最后又起死回生。最近萌发一个想法,把小说网里的小说都爬下来。。 既然要爬网站肯定要对网站结构十分了解,幸好小说网没有弄什么登陆防爬措施,结...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Larbin——一款c++编写的爬虫程序
举报原因:
原因补充:

(最多只允许输入30个字)