linux下爬虫larbin

1.首先,由于编译需要GCC和G++,在Ubuntu下安装相应的编译器。

以下引用自http://blog.csdn.net/guo_wangwei/archive/2006/08/04/1018114.aspx
# 首选,确认你已经安装了build-essential程序包:

apt-get install build-essential

# 确认你已经安装了内核头文件包:

uname -r
apt-get install linux-headers-'kernel version'

# 如果你遇到gcc版本错误,你需要安装编译你内核的gcc版本:

cat /proc/version

这会告诉你,你的内核是用什么版本的gcc编译的.

$ cat /proc/version
Linux version 2.6.12-8-386 (buildd@rothera) (gcc version 3.4.5 20050809 (prerelease) (Debian 3.4.4-6ubuntu6)) #1 Tue Aug 30 22:41:30 BST 2005
ls /usr/bin/gcc*

/usr/bin/gcc      /usr/bin/gcc-4.0  /usr/bin/gccbug   /usr/bin/gccbug-4.0
可以看到,我的核心是用gcc-3.4编译的,但我只装了gcc-4.0.如果你的也不同于/usr/bin/gcc*,你需要安装核心所用的版本.

apt-get install gcc-3.4

这是我需要的版本,你的可能不同.
# 人们忘记的,并困扰我的是g++版本.一些人好像安装gcc之后就可以正常安装vmware-config.pl.但我的在编译vmmon模块时遇到 "cannot exec 'cc1plus'"错误并停止了.你需要安装的是和gcc一样版本的gcc-c++,只是Debian/Ubuntu把它叫做g++.

apt-get install g++-3.4

# 编辑添加: 我忘记你要设定CC为需要的gcc版本了:

export CC=/usr/bin/gcc-3.4
./runme.pl



2.编译源代码
tar zxvf larbin-2.6.3.tar.gz
修改./adns/internal.h文件,把568-571行直接注释掉
注释掉options.h中的这行:#defineDEFAULT_OUTPUT//donothing...,然后使其余的行生效(每行含义,看下面的说明)让SIMPLE_SAVE:生效
把larbin.conf里的图片那一行注示掉(注释掉就是要,看到forbidden)
#./configure
#make
#./larbin


3.配置和运行
larbin.conf中配置查看爬取状态服务器端口,运行后默认情况可以http://localhost:8081看运行状态
telnet host 1976可以在运行时动态增加URL,即inputPort 1976 配置

修改options.h
SIMPLE_SAVE 简单输出一个目录两千个文件,包含索引。
CGILEVEL=0 处理服务器端程序,也就是但url中包含? & = 之类的querString时也处理。
NO_DUP
其余可根据各自需要修改,详见:How to customize Larbin(http://larbin.sourceforge.net/custom-eng.html) 一文。
再编译运行生效。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值