网络爬虫
文章平均质量分 87
coder_WeiSong
这个作者很懒,什么都没留下…
展开
-
larbin的编译 运行+三个配置文件阅读
原文地址:http://blog.csdn.net/wbybeyond/article/details/8173075larbin-2.6.3.tar.gz 官网地址:http://larbin.sourceforge.net/index-eng.html首先解压安装包 tar -xvzf larbin-2.6.3.tar.gz安装gcc,g++,xutils-dev命转载 2013-08-30 20:37:08 · 1125 阅读 · 0 评论 -
Larbin配备与使用
原文地址:http://www.myexception.cn/internet/1165205.htmlLarbin配置与使用安装平台:Ubuntu 10.04.1 LTS(内核版本2.6.32-29-generic)Larbin下载:http://sourceforge.net/projects/larbin/files/larbin/2.6.3/larbin-2.6.3转载 2013-09-01 20:08:31 · 1388 阅读 · 0 评论 -
关于larbin useragent 与 robot.txt设置
更改larbin的useragent由于larbin默认遵守robots.txt,所以如果我要下载百度百科的话就不行,如下百度百科的robots.txt:User-agent: BaiduspiderAllow: /Disallow: /w?User-agent: GooglebotAllow: /Disallow: /updateDisallow: /hist原创 2013-09-14 11:06:52 · 2059 阅读 · 0 评论