spider-定向抓取_定向检索代码-CSDN博客

本文链接：https://blog.csdn.net/wenyusuran/article/details/40780509

网络爬虫按照一定的抓取策略、更新策略和抽取策略处理网页。定向爬虫通过URL正则特征、文本特征来确定目标网页，使用XPath等技术抽取所需内容。对于动态网页和JS处理，HtmlUnit和WebKit等工具可以模拟浏览器行为。Scrapy是一个方便的Python爬虫框架，用于快速搭建定向抓取系统。

摘要由CSDN通过智能技术生成

网络爬虫（web crawler）又称为网络蜘蛛（web spider）是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始，按照一定的策略开始爬取，爬取到的新的url在放入到爬取队列之中，然后进行新一轮的爬取，直到抓取完毕为止。

我们看一下crawler一般会遇到什么样的问题吧：

抓取的网页量很大
网页更新量也很大，一般的网站，比如新闻，电子商务网站，页面基本是实时更新的
大部分的网页都是动态的，多媒体，或者封闭的（facebook）
海量网页的存在就意味着在一定时间之内，抓取只能的抓取其中的一部分，因此需要定义清楚抓取的优先级；网页更新的频繁，也就意味着需要抓取最新的网页和保证链接的有效性，因此一个更有可能带来新网页的列表页显得尤为重要；对于新闻网站，新的网站一般出现在首页，或者在指定的分类网页，但是对于淘宝来说，商品的更新就很难估计了；动态网页怎么办呢？现在的网页大都有JS和AJAX，抓取已经不是简单的执行wget下载，现代的网页结构需要我们的爬虫更加智能，需要更灵活的应对网页的各种情况。