一篇文章了解爬虫技术现状

最新推荐文章于 2024-08-31 16:25:48 发布

lazy杜

最新推荐文章于 2024-08-31 16:25:48 发布

阅读量1.3k

点赞数

分类专栏：其它文章标签：爬虫数据分析

本文链接：https://blog.csdn.net/duwen90/article/details/78413421

版权

本文详细介绍了爬虫的原理、技术现状及其面临的挑战。爬虫从URL开始，通过网络请求、流程控制和内容分析提取信息。当前，Python是最常用的爬虫语言，后台爬虫面临交互验证、JavaScript解析和IP限制等问题。对于JavaScript动态生成内容，通常需要跟踪异步请求。文章还讨论了爬虫与浏览器的异同，并提出了现有问题的应对策略。

摘要由CSDN通过智能技术生成

本文全面的分析了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫，本文很适合你，如果你是一名资深的虫师，那么文末的彩蛋你可能感兴趣。

需求

万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去看，然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序，这就是爬虫。

原理

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；所以一个完整的爬虫一般会包含如下三个模块：

网络请求模块
爬取流程控制模块
内容分析提取模块

网络请求

我们常说爬虫其实就是一堆的http(s)请求，找到待爬取的链接，然后发送一个请求包，得到一个返回包，当然，也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议，这里暂不考虑，所以核心的几个要素就是：

url
请求header、body
响应herder、内容

URL

爬虫开始运行时需要一个初始url，然后会根据爬取到的html文章，解析里面的链接，然后继续爬取，这就像一棵多叉树，从根节点开始，每走一步，就会产生新的节点。为了使爬虫能够结束，一般都会指定一个爬取深度(Depth)。

Http请求

http请求信息由请求方法(method)、请求头(headers)、请求正文(body)三部分组成。由于method一般是header中的第一行，也可以说请求头中包含请求方法，下面是chrome访问请求头的一部分：

GET / HTTP/1.1
Connection:Keep-Alive
Host:gsw.iguoxue.org
User-Agent:

最低0.47元/天解锁文章

lazy杜

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录