1.首先,由于编译需要GCC和G++,在Ubuntu下安装相应的编译器。
以下引用自http://blog.csdn.net/guo_wangwei/archive/2006/08/04/1018114.aspx
# 首选,确认你已经安装了build-essential程序包:
apt-get install build-essential
# 确认你已经安装了内核头文件包:
uname -r
apt-get install linux-headers-'kernel version'
# 如果你遇到gcc版本错误,你需要安装编译你内核的gcc版本:
cat /proc/version
这会告诉你,你的内核是用什么版本的gcc编译的.
$ cat /proc/version
Linux version 2.6.12-8-386 (buildd@rothera) (gcc version 3.4.5 20050809 (prerelease) (Debian 3.4.4-6ubuntu6)) #1 Tue Aug 30 22:41:30 BST 2005
ls /usr/bin/gcc*
/usr/bin/gcc /usr/bin/gcc-4.0 /usr/bin/gccbug /usr/bin/gccbug-4.0
可以看到,我的核心是用gcc-3.4编译的,但我只装了gcc-4.0.如果你的也不同于/usr/bin/gcc*,你需要安装核心所用的版本.
apt-get install gcc-3.4
这是我需要的版本,你的可能不同.
# 人们忘记的,并困扰我的是g++版本.一些人好像安装gcc之后就可以正常安装vmware-config.pl.但我的在编译vmmon模块时遇到 "cannot exec 'cc1plus'"错误并停止了.你需要安装的是和gcc一样版本的gcc-c++,只是Debian/Ubuntu把它叫做g++.
apt-get install g++-3.4
# 编辑添加: 我忘记你要设定CC为需要的gcc版本了:
export CC=/usr/bin/gcc-3.4
./runme.pl
2.编译源代码
tar zxvf larbin-2.6.3.tar.gz
修改./adns/internal.h文件,把568-571行直接注释掉
注释掉options.h中的这行:#defineDEFAULT_OUTPUT//donothing...,然后使其余的行生效(每行含义,看下面的说明)让SIMPLE_SAVE:生效
把larbin.conf里的图片那一行注示掉(注释掉就是要,看到forbidden)
#./configure
#make
#./larbin
3.配置和运行
larbin.conf中配置查看爬取状态服务器端口,运行后默认情况可以http://localhost:8081看运行状态
telnet host 1976可以在运行时动态增加URL,即inputPort 1976 配置
修改options.h
SIMPLE_SAVE 简单输出一个目录两千个文件,包含索引。
CGILEVEL=0 处理服务器端程序,也就是但url中包含? & = 之类的querString时也处理。
NO_DUP
其余可根据各自需要修改,详见:How to customize Larbin(http://larbin.sourceforge.net/custom-eng.html) 一文。
再编译运行生效。
linux下爬虫larbin
最新推荐文章于 2022-09-23 08:37:40 发布