一,爬虫学术含义:
就是通过编写程序模拟浏览器上网,然后让其去互联网抓取数据的过程.
二,爬虫分类
- 通用爬虫 抓取的是一整张页面数据.
- 聚焦爬虫 抓取的是页面中特定的局部内容
- 增量式爬虫 监测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
三,robots.txt协议: --君子协议.规定网站中哪些数据可以爬取,哪些不可以爬取
可以通过网站域名 + /robots.txt的形式访问该网站的协议详情,例如:www.taobao.com/robots.txt
1,服务器渲染:
---在服务器那边直接把数据和html整合在一起,统一返回给服务器
---在页面源代码中能看到数据
2,客户端渲染:
---第一次请求只返回一个html框架,第二次请求拿到数据,进行数据展示
---在页面源代码中看不到数据
请求:
--1,请求行=>请求方式(get/post)=>请求url地址 协议
--2,常用请求头信息:放一些服务器使用的附加信息
- User-Agent:请求载体的身份标识
- Connection:请求完毕后,是断开还是保持继续
- Referer:防盗链
- cookie:本地字符串数据信息(用户登陆信息)
--3,请求体-->放一些请求参数
响应: