将乱七八糟的编码格式转换为统一的编码格式

最新推荐文章于 2022-12-23 17:09:52 发布

hao难懂

最新推荐文章于 2022-12-23 17:09:52 发布

阅读量890

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/ExclusiveName/article/details/105979159

版权

python 专栏收录该内容

31 篇文章 57 订阅

订阅专栏

前情提要：

由于以前我都是使用notepad++来记笔记，编码格式是什么都有，utf8、gbk、ANSI，现在我
使用sublime编辑器时，发现打开ANSI格式出错。浏览器告诉我sublime不支持ANSI格式。
没办法，只能将我的txt文件都改为utf8格式啦。
但要是使用记事本一个一个的去另存为，我感觉我会疯掉，所以我用python写了一个批量
转换文件编码格式的代码。  如有错误欢迎指出，欢迎分享出更高效的方法。

第一步：

设定一个列表，如果你给出文件夹路径，我就将txt文件全部读出来放入列表中；如果你给出
文件路径，我也是放入列表中。这样无论你给出的是文件夹路径还是文件路径，我都给能拿到
你需要转换格式的具体文件。

if os.path.isdir(path):
	lst = os.listdir(path)
	for item in lst:
		new_path = path + os.sep + item
		if os.path.isdir(new_path):
			read_table(new_path)
		elif os.path.isfile(new_path) and new_path.endswith(".txt"):
			table.append(new_path)		
elif os.path.isfile(path) and path.endswith(".txt"):
	table.append(path)

第二步：

我们需要下载一个chardet第三方模块，如果你使用的是anaconda则无需安装，因为它自带啊
下载方式也非常简单，使用cmd命令行 `pip install chardet` ，如果你嫌速度不给力，也
可以使用国内源。`pip install chardet -i "http://pypi.doubanio.com/simple"`

这里还有几个其他的国内源：

http://mirrors.aliyun.com/pypi/simple/ //阿里

https://pypi.tuna.tsinghua.edu.cn/simple/ //清华

http://pypi.douban.com/ //豆瓣

http://pypi.hustunique.com/ //华中理工大学

http://pypi.sdutlinux.org/ //山东理工大学

http://pypi.mirrors.ustc.edu.cn/ //中国科学技术大学

fo = open(file, "rb")
encod = chardet.detect(fo.read())['encoding']
fo.close()
print(encod)

这个模块的作用即可以通过各种编码的特征来猜测文件是哪种编码类型。

第三步：

通过使用chardet判断出来的格式打开文件，然后在使用统一格式(我用的是utf8)写入原文
件，覆盖掉原内容即可。

with open(file, "r", encoding=encod) as f:
	content = f.readlines()
	content = "".join(content)
with open(file, "w", encoding="UTF-8") as w:
	w.write(content)
print(file+" 成功由 "+encod+" 转换为 utf-8 格式。")