爬虫分类
- 通用网络爬虫:像百度,
- 聚焦网络爬虫:针对特定的主题抓取,像我们自己写的
- 增量式网络爬虫:只爬取新产生的或发生 变化的网页
- 深层网络爬虫:只有用户提交一些关键词才能获得的web页面 例如 用户登录注册才能访问的页面
get和post
- get:查询参数都会在URL上显示出来
- post:查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来
User-Agent 用户代理
- 可用作反爬
- 作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果
Refer
- 表明当前这个请求是从哪个url过来的。一般情况下可以用来做反爬的技术##
状态码
- 200:请求成功
- 301:永久重定向
- 302:临时重定向
- 403:服务器拒绝请求
- 404请求失败(服务器无法根据客户端的请求找到资源(网页))
- 500:服务器内部请求
抓包工具
- Elements:网页源代码,提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
- Console:控制台 (打印信息)
- Sources:信息来源 (整个网站加载的文件)
- NetWork : 网络工作(信息抓包) 能够看到很多的网页请求