Abot 爬虫

最新推荐文章于 2023-12-22 21:30:00 发布

侯炯

最新推荐文章于 2023-12-22 21:30:00 发布

阅读量5.1k

点赞数

分类专栏：爬虫

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Abot 爬虫分析-整体结构

1. 引言

在Github 上搜索下Web Crawler 有上千个开源的项目，但是C#的仅仅只有168 个，相比于Java 或者Python 确实少的可怜。如果按照Stars 排名。可以看到

排在第一位的是一个叫Abot的爬虫。通过这两天的测试，发现Abot是一个非常轻巧的爬虫。非常适合.Net程序员入门爬虫技术。

在上一篇博文中，已经简单的介绍了如何使用Abot爬取博客园的新闻数据。今天给大家介绍下Abot的整体结构。

2. 整体结构

Abot的项目非常简单，核心的只有一个Project，但是里面已经包含了线程调度、Html 解析等核心模块。Abot的入口是PoliteWebCrawler，只需要它的一个Instance就可以启动爬虫。

整体的爬取流程大概是这样子的，以爬取博客园新闻数据为例：

上图中绿色的箭头表示线程从Url Repository获取需要爬取的Url，黑色的箭头表示线程将未爬取Url放入Url Repository。

主要的模块有：

1) Url Repository 存储所有需要爬取的Url，底层的实现采用了ConcurrentQueue，因此是线程安全的，也满足了先进先出的规则。

2) Thread Manager 管理所有的爬取线程，线程个数默认是当前处理器的个数，也可以通过Config 指定。

3) Robots 处理robots.txt 的模块，Abot 直接封装了NRobotsPatched 来解析robots.txt

4) LinkParser解析当前爬取到的page 中的链接，Abot 很大程度上利用了HtmlAgilityPack

5) Crawled Url Repository 存储已经爬取的Url，Abot 内部有多个实现

6) Http download 采用了HttpWebRequest 和 HttpWebResponse

7) Memory Monitor 主要是监控内存使用等等，可以通过Config设置爬虫的内存使用上限等

8) Event 相关，主要是在适当的时候触发像Start Crawl 等事件

这是Abot的代码目录

3. 总结

本文主要介绍下Abot 的整体结构，从代码量来看还是非常的轻巧，但是里面具体的实现还是有不少细节性的东西。

对于.Net 程序员是个非常好的学习项目。以后再给大家分析下具体模块的实现。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Abot 爬虫

Abot 爬虫分析-整体结构1. 引言在Github 上搜索下Web Crawler 有上千个开源的项目，但是C#的仅仅只有168 个，相比于Java 或者Python 确实少的可怜。如果按照Stars 排名。可以看到排在第一位的是一个叫Abot的爬虫。通过这两天的测试，发现Abot是一个非常轻巧的爬虫。非常适合.Net程序员入门爬虫技术。在上一篇博文中，已
复制链接

扫一扫

专栏目录

侯炯 CSDN认证博客专家 CSDN认证企业博客

码龄17年

32: 原创

23万+: 周排名

173万+: 总排名

26万+: 访问

: 等级

2667: 积分

115: 粉丝

11: 获赞

47: 评论

25: 收藏

私信

关注

热门文章

分类专栏

Android 4篇
Qt 2篇
WebKit 1篇
Widget 5篇
WinCE 1篇
基础知识 1篇
开源软件介绍 3篇
杂谈 5篇
浏览器 3篇
资讯 3篇
HTML 1篇
jquery 1篇
爬虫 5篇

最新评论

Widget技术_SpiderMonkey cross compile（4）
xiazhiyizhi123: arm-linux-gnueabihf-ld: cannot find -lm 最后一步出现，请问有没解决办法[code=cpp] arm-linux-gnueabihf-ld -shared -o Linux_All_DBG.OBJ/libjs.so Linux_All_DBG.OBJ/jsapi.o Linux_All_DBG.OBJ/jsarena.o Linux_All_DBG.OBJ/jsarray.o Linux_All_DBG.OBJ/jsatom.o Linux_All_DBG.OBJ/jsbool.o Linux_All_DBG.OBJ/jscntxt.o Linux_All_DBG.OBJ/jsdate.o Linux_All_DBG.OBJ/jsdbgapi.o Linux_All_DBG.OBJ/jsdhash.o Linux_All_DBG.OBJ/jsdtoa.o Linux_All_DBG.OBJ/jsemit.o Linux_All_DBG.OBJ/jsexn.o Linux_All_DBG.OBJ/jsfun.o Linux_All_DBG.OBJ/jsgc.o Linux_All_DBG.OBJ/jshash.o Linux_All_DBG.OBJ/jsinterp.o Linux_All_DBG.OBJ/jsiter.o Linux_All_DBG.OBJ/jslock.o Linux_All_DBG.OBJ/jslog2.o Linux_All_DBG.OBJ/jslong.o Linux_All_DBG.OBJ/jsmath.o Linux_All_DBG.OBJ/jsnum.o Linux_All_DBG.OBJ/jsobj.o Linux_All_DBG.OBJ/jsopcode.o Linux_All_DBG.OBJ/jsparse.o Linux_All_DBG.OBJ/jsprf.o Linux_All_DBG.OBJ/jsregexp.o Linux_All_DBG.OBJ/jsscan.o Linux_All_DBG.OBJ/jsscope.o Linux_All_DBG.OBJ/jsscript.o Linux_All_DBG.OBJ/jsstr.o Linux_All_DBG.OBJ/j [/code]
无人超市解决方案
qq_44539867: ٩( ö(∩˃o˂∩)♡
html中input标签回车事件分享
傲莉傲: 谢谢
Axis2与Android的Json(Gson)通信传数据
guicaizhou: 记住要把wso2dynamic-response-1.5.mar加到modules.list中这个modules.list是什么东西啊
Axis2与Android的Json(Gson)通信传数据
qq_17102795: 您好我怎么配置不出来啊返回的还是Xml格式请求指导

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。