Larbin
hsmyy198712
这个作者很懒,什么都没留下…
展开
-
网络爬虫Larbin的学习(一)——larbin的配置
Larbin是一款历史比较悠久的网络爬虫程序,它基于C/C++编写。 目前它可以在linux下运行,对于windows下的运行情况目前尚不清楚(可能需要进行修改) 对于网络爬虫的基础知识,在此不做太多的介绍,本文只对爬虫的配置进行解说。 由于larbin的年头比较远(作者从上世纪开始编写),里面难免有一些与现在系统不一致的情况(作者于2003年停止了维护),所以我们在配置中需要修...2010-09-14 10:01:07 · 208 阅读 · 0 评论 -
网络爬虫Larbin的学习(二)——larbin定制化
这篇主要讲larbin的配置问题,由于作者已经讲得很详细,在此我只把原文进行翻译提炼: (1)larbin对外的接口 作者为我们提供了一个文件,叫做%LARBIN_HOME%/src/interf/useroutput.cc,用户可以在这里面进行一些扩展操作。 具体的借口请看%LARBIN_HOME%/src/interf/useroutput.h,实现在上面的文件中。larbin自...2010-09-14 10:45:27 · 153 阅读 · 0 评论 -
网络爬虫Larbin的学习(三)——整体架构
这一回开始对Larbin的源代码进行学习。经过一段时间的学习,我发现larbin的架构还是不错的。而且他的架构中使用到了许多技术,在阅读源代码的过程中也可以捡起以前学过的东西。 进入%LARBIN_HOME%/src,我们可以看到许多源文件,这些源文件主要分为两大类: (1)主控类 main.cc : 主控程序,调度所有代码进行工作 global.h,global.cc : 实际上...原创 2010-09-16 17:02:04 · 127 阅读 · 0 评论 -
网络爬虫Larbin的学习(四)——基本数据结构
这一回介绍Larin中的基本数据结构,其实这一部分对于每一个高水平的程序来说,都是相似的,但是在此还是废话一下。 首先从我接触到的第一个数据结构开始(因为我在详细阅读代码前首先做了些源代码修改工作)——Vector (1)%LARBIN_HOME%/src/utils/Vector 这个类唯一值得一提的就是他的存储空间优化机制。这在大量的数据结构中都有。 它有两个成员变量: ...原创 2010-09-16 17:16:08 · 184 阅读 · 0 评论