URL组成部分及爬虫相关的几个实用概念
1 URL组成部分
URL=协议+IP地址+端口+资源访问路径+锚点(其中资源访问路径和锚点都由十六进制编码构成)
2 爬虫时需要关注的两个概念
2.1 refere
即refere代表指向首页,而我们通常搜索网页时需要进入首页才能进入下一个页面,这就需要我们为了不被防爬而多数时必须要注意的一个概念
2.2 User-Agent用户代理
作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果
3 状态码
- 200 请求成功
- 301 永久重定向
- 302 临时重定向
- 403 服务器拒绝访问
- 404 访问失败
- 500 服务器内部访问
4 抓包工具
我们一般使用对开发者较为友好的Goole和火狐浏览器自带的抓包工具
常用工具如下
- Element:源代码
- Console:控制台
- Sources:信息源
- Network:网络请求信息