爬虫的基本概念(一)

1,HTTP和HTTPS
http :超文本传输协议,默认端口号:80
https:HTTP + SSL(安全套接字层)默认端口号:443

2,HTTP常见请求头
1. HOST(主机和端口)
2. Connect(连接类型)
3. Upgrade-Insecure-Requests(升级为Https请求)
4. User-Agent(浏览器名称)
5. Accept(传输文件类型)
6. Referer(页面跳转处)
7. Accept-Encoding(文件编辑解码格式)
8. Cookie(cookie)
9. x-requested-with:xmlHttp Request(是Ajax异步请求)

3,常见的请求方法:
GET:
POST:

4,响应状态码(status code)
200:成功
302:临时转移到新的Url
307:临时转到新的Url
404:not found
500: 服务器内部错误

5,爬虫的分类
通用爬虫:通常指搜索引擎的爬虫
聚焦爬虫:针对特定网站的爬虫

6,爬虫的定义
网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
只要浏览器能够做的事情,原则上,爬虫都能够做。

7,通用爬虫和聚焦爬虫的区别
搜索引擎爬虫流程: 抓取网页–》数据存储–》预处理–》提供检索服务,网站排名
聚焦爬虫流程:url list --》响应内容/提取url----》数据存储—》入库

搜索引擎的局限性:

  • 90%返回的网页内容偶的是无效的
  • 音频,图片,视频多媒体的内容使用通用搜索引擎都是无能为力的
  • 不同用户搜索的目的不同,但是返回的内容相同

8,ROBOTS协议
是网络通过robots协议告诉搜索引擎,哪些网站可以爬,哪些不可以爬。
https://www.taobao.com/robots.txt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值