Python爬虫笔记一——爬虫基础知识

本文介绍了Python爬虫的基础知识,包括获取网页数据的requests库,理解HTTP状态码,以及如何查看网站的Robots协议。通过示例展示了爬取并保存文本数据的过程,同时提到了遇到代理问题的解决方法。爬虫的步骤包括获取、解析、提取和存储数据。在实际操作中,要注意遵循网站的爬虫规则。
摘要由CSDN通过智能技术生成

爬虫基础

什么鬼呀,一直说我版权投诉,只能改的乱七八糟,好烦唷

爬虫可以分为以下四个步骤

  • 获取数据
  • 解析数据
  • 提取数据
  • 存储数据

常用的就是这几个命令啦

requests.get() :获取数据
status_code : 请求是否成功
content:把对象转化为二进制数据
txt : 把对象转换成字符串数据
encoding 定义编码方法

以下为常用状态码的解释

1xx 请求收到 继续提出请求
2xx 请求成功 成功
3xx 重定向 应使用代理访问
4xx 客户端错误 禁止访问
5xx 服务器端错误 服务不可用

爬虫的案例

注意:

requests.exceptions.ProxyError:
HTTPSConnectionPool(host=‘localprod.pandateacher.com’, port=443): Max
retries exceeded with url

如果报了这个错,可能是开了代理的原因,关掉就可以访问了,还要研究一下怎么开着代理搞,毕竟科学上网还是需要的呀

常用的几个属性
status_code : 请求是否成功
content:把对象转化为二进制数据,用于对图像视频等的提取
txt : 把对象转换成字符串数据,用于对文本的处理
encoding 定义编码方法

import requests
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
novel=res.text
print(novel[:800])  
## 打印前800字
k = open('《三国演义》.txt','a+')
k.write(novel)
k.close()

response.encoding :能帮我们定义Response对象的编码

如果编码方式不对,则文本不能正常显示

如何看网站是否能爬虫呢

可以查看网站的Robots协议,通常往网站的域名后添加上/robots.txt就可以了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值