Python 爬虫流程及robots协议介绍

最新推荐文章于 2024-04-13 16:47:18 发布

流沙丶

最新推荐文章于 2024-04-13 16:47:18 发布

阅读量326

点赞数

分类专栏： Python 项目爬虫实战

本文链接：https://blog.csdn.net/qq_40968745/article/details/87099291

版权

Python 项目爬虫实战专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Python 爬虫流程及robots协议介绍

**网络爬虫（Spider）是一种高效的数据挖掘的方式，常见的百度，谷歌，火狐等浏览器，其实就是一个非常大的爬虫项目**

爬虫大致分为了四个阶段:
确定目标：我们想要爬取的网页
数据采集：已经爬取到的HTML数据
数据提取：从HTML中提取我们想要的数据
数据存储：将提取出来的数据保存在数据库，保存成JSON文件等

robots协议：
用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,简单的说就是定义了哪些数据可以爬取，哪些数据不能被爬取。
爬虫访问网页的时候，首先查看robots文件，如果存在，则按照robots的规定确定可以爬取的范围，如果不存在那么所有没有被保护的页面的数据都可以爬取

流沙丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫流程及robots协议介绍

Python 爬虫流程及robots协议介绍**网络爬虫（Spider）是一种高效的数据挖掘的方式，常见的百度，谷歌，火狐等浏览器，其实就是一个非常大的爬虫项目**爬虫大致分为了四个阶段:确定目标：我们想要爬取的网页数据采集：已经爬取到的HTML数据数据提取：从HTML中提取我们想要的数据数据存储：将提取出来的数据保存在数据库，保存成JSON文件等robots协议：用简单直接的t...
复制链接

扫一扫