1.爬虫分类
①通用网络爬虫:下载互联网上所有资源并爬取,如百度等搜索引擎。
②聚焦网络爬虫/主题网络爬虫:选择性的爬取跟需求的主题相关的页面。
③增量式网络爬虫:对已下载网页采取增量式更新知识和只爬取新产生或发生变化的网页爬虫。
④深层网络爬虫:大部分内容不能通过静态的URL获取、隐藏在搜索表单后的、只有用户提交一些关键词才能获得的网络页面。
2.HTTP与HTTPS
HTTP(Hyper Text Transfer Protocal)协议:超文本传输协议,是一种发布和接收HTML页面的方法,服务器端口号为80端口。
HTTPS(Hyper Text Transfer Protocal over SecureSocket Layer):是HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号是443端口。
3.URL与URI
URL(Uriform Resource Locator)统一资源定位符,组成部分:
①协议类型,https
②主机名称/域名,www.baidu.com
③端口号,443
④查找路径,s即为查询路径
⑤查询参数,问号后面的均为查询参数,一系列的键值对用&分隔
⑥锚点,用作定位或导航。
URI(Uniform Resource Identifier)统一资源标识符,用于标识某一互联网资源名称的字符串,上个代码中‘/s’为URI。
4.请求方式
在HTTP协议中,定义了8种请求方式,常见的有get请求与post请求。
①get请求:只从服务器获取数据,并不会对服务器资源产生影响时使用get请求。
②post请求:向服务器发送数据如登录、上传文件等,会对服务器资源产生影响时使用post请求。
5.请求头信息
HTTP协议中,向服务器发送一个请求,数据可放在三个地方:
①放在url中;
②放在body中(post请求时),如输入账号密码时;
③放在请求头head中。
常见的请求头参数:
①user-agent:浏览器名称
②referer:表明当前这个请求时从哪个url过来的
③cookie:http协议是无状态的。也就是同一个人发送了两次请求。服务器没有能力知道这两个请求是否来自同一个人。
6.常见相应状态码
301:永久重定向;
200:请求正常,服务器正常返回数据;
404:请求的url在服务器上找不到,即请求的url错误;
418:发送请求遇到服务器端反爬虫,服务器拒绝响应数据;
500:服务器内部错误,可能是服务器较忙。