Python的Scrapy定制网络爬虫

最新推荐文章于 2024-09-25 16:02:01 发布

cuiao6729

最新推荐文章于 2024-09-25 16:02:01 发布

阅读量97

点赞数

文章标签：爬虫 python javascript ViewUI

网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。

例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息；又比如一些别有用心的爬虫会在 Internet 上搜集诸如 foo@bar.com 或者 foo [at] bar [dot] com 之类的东西。除此之外，还有一些定制的爬虫，专门针对某一个网站，还有诸如小众软件或者 LinuxToy 这样的网站也经常被整个站点 crawl 下来，换个名字挂出来。

其实爬虫从基本原理上来讲很简单，只要能访问网络和分析 Web 页面即可，现在大部分语言都有方便的 Http 客户端库可以抓取 Web 页面，而 HTML 的分析最简单的可以直接用正则表达式来做，因此要做一个最简陋的网络爬虫实际上是一件很简单的事情。不过要实现一个高质量的 spider 却是非常难的。

爬虫的两部分：

一是下载 Web 页面，有许多问题需要考虑，如何最大程度地利用本地带宽，如何调度针对不同站点的 Web 请求以减轻对方服务器的负担等。

一个高性能的 Web Crawler 系统里，DNS 查询也会成为急需优化的瓶颈。

另外，还有一些“行规”需要遵循（例如 robots.txt）。而获取了网页之后的分析过程也是非常复杂的，Internet 上的东西千奇百怪，各种错误百出的 HTML 页面都有，要想全部分析清楚几乎是不可能的事；
另外，随着 AJAX 的流行，如何获取由 Javascript. 动态生成的内容成了一大难题；

除此之外，Internet 上还有有各种有意或无意出现的Spider Trap ，如果盲目的跟踪超链接的话，就会陷入 Trap 中万劫不复了，例如这个网站，据说是之前 Google 宣称 Internet 上的 Unique URL 数目已经达到了 1 trillion 个，因此这个人 is proud to announce the second trillion 。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/301743/viewspace-752949/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/301743/viewspace-752949/