爬虫只爬取网页部分内容_一篇了解爬虫技术方方面面

最新推荐文章于 2024-07-10 22:24:34 发布

weixin_39609620

最新推荐文章于 2024-07-10 22:24:34 发布

阅读量2.5k

点赞数 1

文章标签：爬虫只爬取网页部分内容

本文详细介绍了爬虫技术的各个方面，包括爬虫原理、网络请求、流程控制和内容分析提取。爬虫从初始URL开始，通过HTTP请求获取内容，遵循一定的流程策略。在内容提取中，不仅要处理HTML内容，还要处理JavaScript动态生成和Ajax请求的内容。此外，文章还探讨了爬虫技术的现状，如常用语言Python和面临的挑战，如交互验证、JavaScript解析和IP限制问题。

摘要由CSDN通过智能技术生成

原理

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；

所以一个完整的爬虫一般会包含如下三个模块：

网络请求模块
爬取流程控制模块
内容分析提取模块

网络请求

我们常说爬虫其实就是一堆的http(s)请求，找到待爬取的链接，然后发送一个请求包，得到一个返回包，当然，也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议，这里暂不考虑；

所以核心的几个要素就是：

url
请求header、body
响应herder、内容

URL

爬虫开始运行时需要一个初始url，然后会根据爬取到的html文章，解析里面的链接，然后继续爬取，这就像一棵多叉树，从根节点开始，每走一步，就会产生新的节点。为了使爬虫能够结束，一般都会指定一个爬取深度(Depth)。

Http请求

http请求信息由请求方法(method)、请求头(headers)、请求正文(body)三部分组成。由于method一般是header中的第一行，也可以说请求头中包含请求方法，下面是chrome访问请求头的一部分：

对于爬虫需要注意的是请求方法是post时，需要将请求的参数先进行urlencode后再发送，后台收到请求信息后可能会做一些校验，这可能会影响到爬取，相关的header字段如下：

Basic Auth

最低0.47元/天解锁文章

weixin_39609620

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。