1.爬虫的概念
网络爬虫就是模拟客户端(主要是指浏览器)发送网络请求并接收请求响应,它是一种按照一定规则,自动抓取互联网信息的程序
2.爬虫的流程
1.获取一个url
2.向url发送请求,并获取响应(需要http协议)
3.如果从响应中获取url,则继续发送请求获取响应
4.如果从响应中提取数据,则将数据进行保存
3.HTTP和HTTPS的区别
https比http更安全但是性能相对更低
http:超文本传输协议,默认端口号80
超文本:指超过文本,不仅限于文本,还包括图片、音频、视频等文件
传输协议:是指使用公用约定的固定格式来传递转换成字符串的超文本内容
https:http+SSL(安全套接字层),即带有安全套接字的超文本传输协议,默认端口号443
4.常见的请求头
请求头
Host:域名
Connection:长链接
Upgrade-Insecure-Requests:升级为HTTPS请求
User-Agent:用户代理,提供系统信息和浏览器信息
Referer:页面跳转处,防盗链(图片/视频)
Cookie:状态保持