在 Linux 上构建 Web spider

最新推荐文章于 2024-04-27 09:57:44 发布

ibmjournal

最新推荐文章于 2024-04-27 09:57:44 发布

阅读量986

点赞数

文章标签： web linux internet 网络协议语言 soap

本文链接：https://blog.csdn.net/ibmjournal/article/details/1433134

版权

Web spider 是用来进行 Internet 信息的搜索、过滤和聚合的软件代理。使用通用脚本语言和一些 Web 模块组合，就可以轻松地开发自己的 Web spider。本文介绍了如何为 Linux® 构建 spider 和 scraper，从而实现在 Web 站点上爬行并搜集信息，具体到本例就是搜集股票数据。
spider 是一个为实现特定目的以特定方法在 Internet 上爬行的程序。其目的可能是为了搜集信息也可能是为了理解 Web 站点的结构和有效性。spider 是现代搜索引擎（例如 Google 和 AltaVista）的基础。这些 spider 会自动从 Web 上搜索数据并将数据传递给其他应用程序，这些应用程序会对 Web 站点的内容进行索引，以便获得最好的搜索条件集。

Web scraper 是一种与 spider 类似的技术，不过它具有更多合法性问题。scraper 是一种 spider，其目标是为了从 Web 上获取特定的内容，例如产品的成本或服务。scraper 的一种用途是为了获得有竞争力的价格，从而确定给定产品的价格，以便能够制定出自己产品的合理价格或相应地进行宣传。scraper 还可以从很多 Web 站点上搜集大量数据并将这些信息提供给用户。

生物学动机

当考察自然界中真正的蜘蛛时，您会从它与环境的交互性（而绝非孤立地）去考察它。蜘蛛会看到并感受到自己身旁的路，并会有目的地从一个地方移动到另外一个地方。Web spider 也会以类似的方式进行操作。Web spider 是一种使用高级语言编写的程序。它通过使用网络协议与环境进行交互，例如对 Web 使用超文本传输协议（HTTP）。如果 Web spider 需要与您进行通信，那么它可以使用简单邮件传输协议（SMTP）来发送 e-mail 消息。

不过 Web spider 并不限定于使用 HTTP 或 SMTP。有些 spider 使用 Web 服务，例如 SOAP 或可扩展标记语言远程过程调用（XML-RPC）协议。其他 spider 会使用网络新闻传输协议（NNTP）对新闻组进行遍历，或者寻找 RSS（Really Simple Syndication）提要中有趣的新条目。尽管自然界中的大部分蜘蛛都只能看到明暗强度和动作的变化，但是 Web spider 却可以使用很多种协议来看和感知。

。。。。。。

点击此处查看全文