关于文件格式识别转换

这篇博客介绍了如何使用Python的chardet模块检测文件编码,并结合argparse模块解析命令行参数,进行文件编码格式的转换。主要内容包括编码格式的概念,chardet模块的detect方法,argparse模块的参数解析,以及文件的打开模式和编码转换的基本操作。通过示例展示了不同类型的文件运行结果。
摘要由CSDN通过智能技术生成

学校上机实验的一道作业题(可能是我太菜完全不会写,写出来整理一下,内容仅为个人理解)
作业内容:编写程序,用户在命令提示行输入文件名和该文件的编码格式,读入文件,将其转存成UTF-8格式。如果用户没有指定输入文件的编码格式,则使用chardet模块“猜”出其编码格式,用于解码。使用argparse模块解析用户命令提示行输入。

编码格式

文件是数据存储的一直形式,它有两种展现形态,一种是二进制形态一种是文本形态。这两种本质上都是二进制形态。
而文本文件就是利用某种单一编码组成的文件,也可以理解成储存着的字符串。其中这个单一编码就是编码格式,例如UTF-8格式,ASCII等等

chardet模块

使用chardet模块检测编码格式很简单,使用chardet. detect()方法就可以得到,例如:

>>>chardet.detect(b'hellow world')
{
   'encoding': 'ascii', 'confidence': 1.0, 'language': ''}
>>> data = '我爱祖国'.encode('utf-8')
>>> chardet.detect(data)
{
   'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

enc

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值