爬虫简介
通讯协议
通讯协议
国际组织定义了通信用协议TCP/IP
所谓协议就是指计算机通信网络中两台计算机进行通讯必须共同遵守的规则或规定。
HTTP协议又叫做超文本传输(就是一种通讯协议)
网络模型
网络模型
https = http + ssl
https是以http以安全为目的的传输通道。简单理解https就是http的安全版
get和post方法
请求方法
GET 从指定的资源请求数据
POST 向指定的资源提交要处理的数据
PUT
DELETE
GET和POST的区别
1.get通过url提交数据,数据在url可以看到。post数据放置在实体内提交
2.get方式提交的数据最多只能是1024字节。post没有限制
3.安全问题
爬虫概念
网络爬虫或者网页蜘蛛。主要功能是下载互联网或者是局域网de各种资源。
比如html静态页面 图像文件 js代码…
代替人去模拟浏览器进行网页操作
为什么需要爬虫?
为其他的数据提供数据源。比如(搜索引擎 baidu google…) 数据分析、大数据、人工智能…
数据分析
x宝 支付数据 马X
抖x 点 划 100个视频 数据 抓取下来
alpha视频 广告
用户基数大 用户活跃度大
爬虫分类
爬虫的分类
-
通用网络爬虫 指的是大型的搜索引擎
-
聚焦网络爬虫 指的是根据既定的目标有选择的有目的地到互联网上获取数据