将指定文件夹中的每个txt文件的内容读取出来,并将每个文件的内容按逗号、空格和句号作为分隔符拆分成多列,每一行txt文件的内容将作为CSV文件中的一行,此文件夹中的文件会有非utf-8字符,是如下的代码,如果是utf-8编码的,需要更换代码:
with open(file_path, 'r',encoding='utf-8') as file:
import os
import csv
# 请将以下路径替换为您存放txt文件的文件夹路径
folder_path = 'C://Users//Administrator//Desktop//成品油//成品油//裁判文书//检察文书txt'
# 创建一个空的列表来存储所有txt文件的内容
data = []
# 遍历文件夹中的所有txt文件
for file_name in os.listdir(folder_path):
if file_name.endswith('.txt'):
file_path = os.path.join(folder_path, file_name)
# 读取文件内容
with open(file_path, 'r') as file:
content = file.read()
# 使用逗号、空格和句号作为分隔符拆分内容
# 注意:这里使用了一个正则表达式来匹配这些分隔符
import re
row = re.split(r'[,\s\.\:]+', content)
# 移除空字符串
row = [word for word in row if word]
# 将处理后的行添加到数据列表中
data.append(row)
# 将数据写入CSV文件
csv_file_path = 'output.csv'
with open(csv_file_path, 'w', newline='', encoding='utf-8') as csv_file:
writer = csv.writer(csv_file)
writer.writerows(data)
print("CSV文件已生成。")
如果是utf-8编码的,需要更换代码:
with open(file_path, 'r',encoding='utf-8') as file:
import os
import csv
# 请将以下路径替换为您存放txt文件的文件夹路径
folder_path = 'C://Users//Administrator//Desktop//成品油//成品油//裁判文书//司法文书'
# 创建一个空的列表来存储所有txt文件的内容
data = []
# 遍历文件夹中的所有txt文件
for file_name in os.listdir(folder_path):
if file_name.endswith('.txt'):
file_path = os.path.join(folder_path, file_name)
# 读取文件内容
with open(file_path, 'r',encoding='utf-8') as file:
content = file.read()
# 使用逗号、空格和句号作为分隔符拆分内容
# 注意:这里使用了一个正则表达式来匹配这些分隔符
import re
row = re.split(r'[,\s\.\:]+', content)
# 移除空字符串
row = [word for word in row if word]
# 将处理后的行添加到数据列表中
data.append(row)
# 将数据写入CSV文件
csv_file_path = 'output.csv'
with open(csv_file_path, 'w', newline='', encoding='utf-8') as csv_file:
writer = csv.writer(csv_file)
writer.writerows(data)
print("CSV文件已生成。")

被折叠的 条评论
为什么被折叠?



