Python中文件编码的检测

本文介绍了Python中文件的两种打开模式(r和rb),以及在已知和未知编码格式时的处理策略。重点提到了使用chardet检测文件编码并正确读取的方法。同时,作者提供了系统化的学习资源链接,鼓励IT行业人员共同学习和成长。
摘要由CSDN通过智能技术生成

一、文件打开模式

这里介绍一下待会涉及到的文件打开方式,一个是 “ r ” ,即只读模式,只对文档进行读取,不作修改;另一种是 “ rb ” ,即二进制模式,读取的文档以二进制字符串表示(一般文档、图片和视音频等文件为了便于储存、传输的需要,在硬盘上以二进制字符串的形式存在),更直观的说,就是把文件原封不动的从硬盘里读出来,不进行解码,难以阅读。

二、文件打开方法

文件打开一般会遇到以下两种情况

1、已知文件保存的编码格式,则读取时,指定对应的编码格式即可正常读取。

首先我们先新建一个文档,命名为 “word1.txt ”,以“ utf-8 ”编码格式保存,内容如下:

你好,明天!

文件打开一般方法如下:

f = open(file=“filename”,mode=“r”,encoding=“utf-8”)#文件名最好带后缀,编码格式按已知的文件编码填,此处以 utf-8 为例

实例如下:已知一个文件是以 utf-8 编码的,则打开时的编码也是 utf-8

**2、文件保存时的编码格式未知,打开时无法设置编码方式,使得读取乱码。**此时的解决方法有两种:

(1)一种是不去理会文件的编码格式,只交给计算机读取,保存和传输(不用给人看),以二进制模式打开,即 mode设为 “ rb ”即可,方法如下:

(2)另一种则是今天的主角,通过Python第三方包(chardet)帮助我们检测文件的编码格式,然后再按正常模式读取文件,方法如下:

首先确保已经安装 “chardet”包,若没有安装,安装方法如下(已配置Python环境的情况下,在命令行cmd中输入以下内容):

pip3 install chardet  # Python2里换成pip

在这里插入图片描述

感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值