我爬、我爬、我爬爬爬......

最新推荐文章于 2024-05-08 03:05:06 发布

freebuilder

最新推荐文章于 2024-05-08 03:05:06 发布

阅读量410

点赞数

分类专栏：技术讨论文章标签： Ruby .net Web

技术讨论专栏收录该内容

42 篇文章 0 订阅

订阅专栏

前一段时间写了一段抓取网页的程序，感到这个很简单，最近要搜寻网上信息，于是也打算写一个程序来做这件事，不过这次涉及到多个网站，格式很不规则，写来写去，貌似变成一个垂直爬虫了，略有心得，凑一篇博客吧。

作为一个java程序员，我选择最简单的方式──用ruby来做 :D ，使用的技术储备包括：
1. 任务编写工具，用rake就足够了，很方便
2. html解析器：用Hpricot，它支持各种定位方式，据说底层用C，因此性能不错
3. 另外还要一些支持库：例如地址处理使用uri、网页抓取使用net/http，编码转换使用iconv等等。

既然是爬虫，那么通过网页上的链接进行网页抓取是基本功能，显然，这是一个图遍历的问题，老规矩，两个思路──深度优先和广度优先。标准做法应该是这样：

深度优先：
1. 用户程序员给出入口网址。
2. 将网址放入“已处理链接”的列表中
3. 根据刚才这个网址取得网页，分析网页，取得上面的其它链接。
3. 对每一个链接进行过滤检查，对符合条件的链接执行步骤一开始的操作，否则结束。
4. 得到网址列表。

广度优先：
1.用户程序员给出网址。
2.将网址放入“待处理链接”列表中。
3.遍历“待处理链接”列表，对每一个地址执行如下操作：
3.1. 根据地址取得网页
3.2. 分析网页，获得上面的链接
3.3. 过滤每一个链接，符合条件的添加到“待处理链接”列表中
3.4. 将此地址移入“已处理链接”的列表中
4. 如果“待处理链接”列表为空，则结束，否则重复步骤三。
5. 结束后得到网址列表

这一段是照本宣科，我懒，所以下回接着写，呵呵

freebuilder

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
我爬、我爬、我爬爬爬......

前一段时间写了一段抓取网页的程序，感到这个很简单，最近要搜寻网上信息，于是也打算写一个程序来做这件事，不过这次涉及到多个网站，格式很不规则，写来写去，貌似变成一个垂直爬虫了，略有心得，凑一篇博客吧。作为一个java程序员，我选择最简单的方式──用ruby来做 :D ，使用的技术储备包括：1. 任务编写工具，用rake就足够了，很方便2. html解析器：用Hpricot，它支持各种...
复制链接

扫一扫