文章目录
爬虫基础
什么鬼呀,一直说我版权投诉,只能改的乱七八糟,好烦唷
爬虫可以分为以下四个步骤
- 获取数据
- 解析数据
- 提取数据
- 存储数据
常用的就是这几个命令啦
requests.get() :获取数据
status_code : 请求是否成功
content:把对象转化为二进制数据
txt : 把对象转换成字符串数据
encoding 定义编码方法
以下为常用状态码的解释
1xx 请求收到 继续提出请求
2xx 请求成功 成功
3xx 重定向 应使用代理访问
4xx 客户端错误 禁止访问
5xx 服务器端错误 服务不可用
爬虫的案例
注意:
requests.exceptions.ProxyError:
HTTPSConnectionPool(host=‘localprod.pandateacher.com’, port=443): Max
retries exceeded with url
如果报了这个错,可能是开了代理的原因,关掉就可以访问了,还要研究一下怎么开着代理搞,毕竟科学上网还是需要的呀
常用的几个属性
status_code : 请求是否成功
content:把对象转化为二进制数据,用于对图像视频等的提取
txt : 把对象转换成字符串数据,用于对文本的处理
encoding 定义编码方法
import requests
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
novel=res.text
print(novel[:800])
## 打印前800字
k = open('《三国演义》.txt','a+')
k.write(novel)
k.close()
response.encoding :能帮我们定义Response对象的编码
如果编码方式不对,则文本不能正常显示
如何看网站是否能爬虫呢
可以查看网站的Robots协议,通常往网站的域名后添加上/robots.txt就可以了