网络爬虫的概述

一: 安装requests

      pip/pipenv install request    没有安装pipenv的需要先安装pipenv 
      
      git clone git://github.com/requests/requests.git   克隆库

二:什么是爬虫?
网络爬虫也叫网络蜘蛛,是一种用来自动浏览万维网的网络机器人
爬虫就是请求网站并提取数据的自动化程序

三: 爬虫流程
1.发起请求
通过一个HTTP库向目标站点发起请求,即发送一个request,
请求可以包含额外的headers等信息,等待服务器相应
2.获取响应内容
如果服务器能正常响应,会的得到一个Response,Response的内容
便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视屏)等类型
3.解析内容
得到的内容可能是HTML,可以用正则表达式、网页、解析库进行解析。
得到的内容可能是Json,可以用转为Json对象解析。
可能是二进制数据, 可以做保存或者进一步处理。
4.保存数据
保存形式多样,可以保存为文本,也可以保存为数据库,或者指定的文件格式

四:网络爬虫的分类
1.通用网络爬虫
2.聚焦网络爬虫
3.增量式网络爬虫
4.深层网络爬虫

五:Robots协议
Robots协议是:网络爬虫排除标准,网站的所有者会提供Robots.txt 文件爬虫声明,不应该处理或扫描的那些区域,该协议是国际互联网界通行的道德规范,基于一下原则建立:
1.搜素技术应服务于人类,同时要尊重信息提供者的意愿,并保护其隐私。
2.网站有义务保护其使用者的个人信息和隐私不被侵犯。

六:创建Robots.txt文件
先创建一个robots.txt的文本文件放在web服务器的顶级目录中,文件名必须全部为小写,然后有五个参数
(1). User-agent: 这个是搜索引擎种类
例如: User-agent: * , * -->代表所有的搜索引擎
(2) Allow: 这个是允许爬取的路径
例如: Allow : /tmp , --> 允许爬取tmp整个目录
(3) Disallow : 静止抓取的路径
例如: Disallow: / ? , -->禁止访问包括问号的网址
(4) Crawl-delay : 两次请求中间的延迟时间
例如: Crawl-delay :5 , --> 两次请求中间要延迟五秒
(5) Sitemap: 网站地图地址 , --> 告诉爬虫这个页面是网站的地图

下面这个是csdn的robots.txt:CSDN的robots.txt

好的,今天的笔记就写完了,欢迎留言指出错误。
拜了个拜~!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值