由于最近在做数据处理,比赛给的文件往往是多种格式的,要处理成统一的。
但是在处理过程中发现wps格式不是很容易处理,网上也没找到工具,所以利用Python批量将wps转txt,就直接展示代码吧~
import os
import chardet
# 自定义文件路径
file_path = r"C:\Users\Fryant\Desktop\data\policy\wps"
# 遍历指定目录下的所有文件
for root, dirs, files in os.walk(file_path):
for file in files:
# 判断文件是否是WPS文件
if file.endswith(".wps"):
# 打开WPS文件,并读取其中的内容
with open(os.path.join(root, file), "rb") as f:
content = f.read()
# 检测文件的编码格式
encoding = chardet.detect(content)["encoding"]
# 将文件内容转化为字符串
content_str = content.decode(encoding)
# 将文件内容保存到txt文件中
with open(os.path.join(root, file[:-4] + ".txt"), "w", encoding="utf-8") as f:
f.write(content_str)
print('处理完成')