class url : 处理URL的, 包括显示, 分析URL, 得到主机, 端口, 文件数据等.
class hashTable: 需要对URL进行排重, 是一个比较大的url Hash表
class hashDup: 对网页的内容进行排重, 是一个Document Hash表.
class PersistentFifo: 爬行下来的URL量比较大, 需要存到磁盘上, 所以用到一个FIFO队列, 程序中用类class PersistentFifo实现的.
class NamedSite: 爬虫一般是对多个网站进行爬取, 但在同时站点内的DNS的请求可以只做一次, 这就需要将主机名独立url, Larbin有一个类class NamedSite进行处理.
class IPSite: 主机名解析完成后需要有一个解析完成的IP类class IPSite与之应用, 用于connect的时候使用.
class html: 对于抓取回来的HTML文档, 需要进行解析, 需要一个用于HTML解析的类, larbin的解析类为class html.
再加上connexion, text文件中的字符串处理函数, 用于连接队列的class ConstantSizedFifo类, Larbin的主要部分就算完成了.