文章目录
一、初识爬虫
1.HTTP和HTTPS
- HTTP
- 超文本传输协议
- 默认端口号:80
- HTTPS
- HTTP+SSL(安全套接字层)
- 默认端口号:443
HTTPS比HTTP更安全,但是性能更低。
2.爬虫的概念
- 爬虫是模拟浏览器发送请求,获取相应。
3.爬虫的流程
- url–>发送请求,获取相应–>提取数据–>保存
- 发送请求,获取相应–>提取url
4.URL格式和http请求格式
scheme:协议(例如:http,https,ftp)
host:服务器的IP地址或者域名
port:服务器的端口(如果是协议默认端口,80 or 443)
path:访问资源的路径
query-string:参数,发送http服务的数据
anchor:锚(跳转到网页的指定锚点位置)
http://localhost:4000/file/part01/1.2.html
http://item.jd.com/11936238.html#product-detail
5.HTTP常见请求头
1.Host(主机和端口号)
2.Connection(链接类型)
3.Upgrade-Insecure-Requests(升级为HTTPS请求)
4.User-Agent(浏览器名称)
5.Acceot(传输文件类型)
6.Referer(页面跳转处)
7.Accept-Encoding(文件编解码格式)
8.x-requested-with:XMLHttpRequest(是Ajax异步请求)
6.的请求方法
- get:向某个地方获取一些数据,这个获取的过程可以理解为一个简单的查询
- post:一般都是表单提交,可以在body里面携带数据。
7.常见相应状态码(status code)
- 200:成功
- 302:临时转移至新的url
- 307:临时转移至新的url
- 404:not found
- 500:服务器内部错误
8.爬虫的定义
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接受请求相应,一种按照一定的规则,自动地抓取互联网信息地程序。
- 只要是浏览器能做的事情,原则上,爬虫都能够做。
9.ROBOTS协议
Robots协议:网站通过Robots协议告诉搜索引擎那些页面可以抓取,那些页面不能抓取
- 例如:https://www.taobao.com/robots.txt
其他
爬虫要根据当前url地址对应的相应为准,当前url地址的elements的内容和url的响应不一样
页面上的数据在哪里
- 当前url地址对应的响应中
- 其他url地址对应的响应中
- 比如ajax请求中
- js生成的
- 部分数据在响应中
- 全部通过js生成