Python爬虫笔记一——爬虫基础知识

凌少skier

已于 2022-05-03 15:42:34 修改

阅读量164

点赞数

分类专栏：科学家之路 python学习文章标签：爬虫 python 开发语言

于 2022-05-03 14:41:23 首次发布

本文链接：https://blog.csdn.net/qq_24371789/article/details/124552036

版权

python学习同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

科学家之路

3 篇文章 2 订阅

订阅专栏

本文介绍了Python爬虫的基础知识，包括获取网页数据的requests库，理解HTTP状态码，以及如何查看网站的Robots协议。通过示例展示了爬取并保存文本数据的过程，同时提到了遇到代理问题的解决方法。爬虫的步骤包括获取、解析、提取和存储数据。在实际操作中，要注意遵循网站的爬虫规则。

摘要由CSDN通过智能技术生成

文章目录

- 爬虫基础
- - 爬虫的案例
  - 如何看网站是否能爬虫呢

爬虫基础

什么鬼呀，一直说我版权投诉，只能改的乱七八糟，好烦唷

爬虫可以分为以下四个步骤

获取数据
解析数据
提取数据
存储数据

常用的就是这几个命令啦

requests.get() :获取数据
status_code : 请求是否成功
content：把对象转化为二进制数据
txt ：把对象转换成字符串数据
encoding 定义编码方法

以下为常用状态码的解释

1xx 请求收到继续提出请求
2xx 请求成功成功
3xx 重定向应使用代理访问
4xx 客户端错误禁止访问
5xx 服务器端错误服务不可用

爬虫的案例

注意：

requests.exceptions.ProxyError:
HTTPSConnectionPool(host=‘localprod.pandateacher.com’, port=443): Max
retries exceeded with url

如果报了这个错，可能是开了代理的原因，关掉就可以访问了，还要研究一下怎么开着代理搞，毕竟科学上网还是需要的呀

常用的几个属性
status_code : 请求是否成功
content：把对象转化为二进制数据，用于对图像视频等的提取
txt ：把对象转换成字符串数据，用于对文本的处理
encoding 定义编码方法

import requests
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
novel=res.text
print(novel[:800])  
## 打印前800字
k = open('《三国演义》.txt','a+')
k.write(novel)
k.close()

response.encoding ：能帮我们定义Response对象的编码

如果编码方式不对，则文本不能正常显示

如何看网站是否能爬虫呢

可以查看网站的Robots协议，通常往网站的域名后添加上/robots.txt就可以了

凌少skier

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录