爬虫基础(1)

1.爬虫分类

①通用网络爬虫:下载互联网上所有资源并爬取,如百度等搜索引擎。

②聚焦网络爬虫/主题网络爬虫:选择性的爬取跟需求的主题相关的页面。

③增量式网络爬虫:对已下载网页采取增量式更新知识和只爬取新产生或发生变化的网页爬虫。

④深层网络爬虫:大部分内容不能通过静态的URL获取、隐藏在搜索表单后的、只有用户提交一些关键词才能获得的网络页面。

2.HTTP与HTTPS

HTTP(Hyper Text Transfer Protocal)协议:超文本传输协议,是一种发布和接收HTML页面的方法,服务器端口号为80端口。

HTTPS(Hyper Text Transfer Protocal over SecureSocket Layer):是HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号是443端口。

3.URL与URI

URL(Uriform Resource Locator)统一资源定位符,组成部分:

https://www.baidu.com/s?wd=python&rsv_spt=1&rsv_iqid=0xde5c49c00008c772&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=baiduhome_pg&rsv_enter=1&rsv_dl=tb&oq=python&rsv_btype=t&inputT=492&rsv_t=f8bcX8%2FeQBq6zBVdcv8Bmf2%2Bf4b9bDPNLZ6f8QmkVF3S8Q2kesajCLwcNk7mG14cE%2BGy&rsv_sug3=11&rsv_sug1=9&rsv_sug7=100&rsv_pq=e943488000023bc9&rsv_sug2=0&rsv_sug4=1481

①协议类型,https

②主机名称/域名,www.baidu.com

③端口号,443

④查找路径,s即为查询路径

⑤查询参数,问号后面的均为查询参数,一系列的键值对用&分隔

⑥锚点,用作定位或导航。

URI(Uniform Resource Identifier)统一资源标识符,用于标识某一互联网资源名称的字符串,上个代码中‘/s’为URI。

4.请求方式

在HTTP协议中,定义了8种请求方式,常见的有get请求与post请求。

①get请求:只从服务器获取数据,并不会对服务器资源产生影响时使用get请求。

②post请求:向服务器发送数据如登录、上传文件等,会对服务器资源产生影响时使用post请求。

5.请求头信息

HTTP协议中,向服务器发送一个请求,数据可放在三个地方:

①放在url中;

②放在body中(post请求时),如输入账号密码时;

③放在请求头head中。

常见的请求头参数:

①user-agent:浏览器名称

②referer:表明当前这个请求时从哪个url过来的

③cookie:http协议是无状态的。也就是同一个人发送了两次请求。服务器没有能力知道这两个请求是否来自同一个人。

6.常见相应状态码

301:永久重定向;

200:请求正常,服务器正常返回数据;

404:请求的url在服务器上找不到,即请求的url错误;

418:发送请求遇到服务器端反爬虫,服务器拒绝响应数据;

500:服务器内部错误,可能是服务器较忙。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

长得丑就要多读书

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值