网络爬虫学习

最新推荐文章于 2024-09-14 11:30:21 发布

321MTR

最新推荐文章于 2024-09-14 11:30:21 发布

阅读量310

点赞数

分类专栏：爬虫文章标签：爬虫学习 python

本文链接：https://blog.csdn.net/m0_67082382/article/details/128348212

版权

网络爬虫，又称网页蜘蛛，是按照一定规则自动抓取网页数据的程序。本文介绍了爬虫的分类，如通用、聚焦、增量式和深层网络爬虫，详细讲解了爬取网页的流程、robots.txt文件、防爬虫策略，以及为何选择Python作为爬虫开发语言。还涉及了HTTP请求方法、响应格式、URL编码转换、XPath、JSON和MongoDB在爬虫中的应用。

摘要由CSDN通过智能技术生成

#网络爬虫

结论：网络爬虫，又称为网页蜘蛛、网络机器人，是一种按照一定的规则，自动请求万维网网站并提取网络数据的程序或脚本

爬虫的分类

1通用网络爬虫：爬取互联网上所有的资源
2聚焦网络爬虫：又称，主题网络爬虫。只选择性地爬取根据需求主题相关页面。
3增量式网络爬虫：只爬取新产生和发生变化的网页。
4深层网络爬虫：大部分内容不能通过静态的URL获取、隐藏在搜索表单后的、只有用户一些关键词才能获得网络页面。

爬虫抓取网页的详细流程

"""
(1) 首先选取一些网页，将这些网页的链接地址作为种子URL；

(2) 将这些种子URL放入到待抓取URL队列中；

(3) 爬虫从待抓取URL队列（队列先进先出）中依次读取URL，并通过DNS解析URL，把链接地址转换为网站服务器所对应的IP地址；

(4) 将IP地址和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载；

(5) 网页下载器将相应网页的内容下载到本地；

(6) 将下载到本地的网页存储到页面库中，等待建立索引等后续处理；与此同时将下载过网页的URL放入到已抓取URL队列中，这个队列记载了爬虫系统已经下载过的网页URL，以避免网页的重复抓取；

(7) 对于刚刚下载的网页，从中抽取出所包含的所有链接信息，并在已抓取URL中检查其是否被抓取过，如果还未被抓取过，则将这个URL放入到待抓取URL队列中；

(8) 下载被放入待抓取URL队列中的URL对应的网页，如此重复3-7，形成循环，直到待抓取URL队列为空。

对于爬虫来说，往往还需要进行网页去重及网页反作弊。
"""