网络爬虫的概述

最新推荐文章于 2024-08-24 16:40:35 发布

工业的血液

最新推荐文章于 2024-08-24 16:40:35 发布

阅读量589

点赞数 1

分类专栏：原创文章标签： python 爬虫爬虫的分类基础 robots.txt

本文链接：https://blog.csdn.net/qq_42805027/article/details/85011909

版权

原创专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一：安装requests

      pip/pipenv install request    没有安装pipenv的需要先安装pipenv 
      
      git clone git://github.com/requests/requests.git   克隆库

二：什么是爬虫？
网络爬虫也叫网络蜘蛛，是一种用来自动浏览万维网的网络机器人
爬虫就是请求网站并提取数据的自动化程序

三：爬虫流程
1.发起请求
通过一个HTTP库向目标站点发起请求，即发送一个request，
请求可以包含额外的headers等信息，等待服务器相应
2.获取响应内容
如果服务器能正常响应，会的得到一个Response，Response的内容
便是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据(如图片视屏)等类型
3.解析内容
得到的内容可能是HTML，可以用正则表达式、网页、解析库进行解析。
得到的内容可能是Json，可以用转为Json对象解析。
可能是二进制数据，可以做保存或者进一步处理。
4.保存数据
保存形式多样，可以保存为文本，也可以保存为数据库，或者指定的文件格式

四：网络爬虫的分类
1.通用网络爬虫
2.聚焦网络爬虫
3.增量式网络爬虫
4.深层网络爬虫

五：Robots协议
Robots协议是：网络爬虫排除标准，网站的所有者会提供Robots.txt 文件爬虫声明，不应该处理或扫描的那些区域，该协议是国际互联网界通行的道德规范，基于一下原则建立：
1.搜素技术应服务于人类，同时要尊重信息提供者的意愿，并保护其隐私。
2.网站有义务保护其使用者的个人信息和隐私不被侵犯。

六：创建Robots.txt文件
先创建一个robots.txt的文本文件放在web服务器的顶级目录中，文件名必须全部为小写，然后有五个参数
(1). User-agent: 这个是搜索引擎种类
例如： User-agent： * ， * -->代表所有的搜索引擎
(2) Allow: 这个是允许爬取的路径
例如: Allow : /tmp , --> 允许爬取tmp整个目录
(3) Disallow ：静止抓取的路径
例如:　Disallow: / ? , -->禁止访问包括问号的网址
(4) Crawl-delay : 两次请求中间的延迟时间
例如： Crawl-delay ：5 ， --> 两次请求中间要延迟五秒
(5) Sitemap: 网站地图地址， --> 告诉爬虫这个页面是网站的地图

下面这个是csdn的robots.txt: