-
需求:将所有文件下的A类数据的训练集、验证集和测试集分别整合到一起,B类数据的训练集、验证集和测试集分别整合到一起。
-
将要处理的数据文件放至data文件下,数据处理完成后存放至match_data文件下。
数据格式如下:
-
导入所需要的包
import os
import json
from tqdm import tqdm
- 文件路径及目录相关操作
data_path = "data/" # 根路径
path_list = os.listdir(data_path) # 获取根路径下的文件目录
print(path_list)
- 分别定义用于存放各类数据的列表
# 分别定义用于存放各类数据的列表
train_data_a = []
val_data_a = []
train_data_b = []
val_data_b = []
test_data_a = []
test_data_b = []
- 对单句进行处理
# 对单句进行处理
def process(sentence):
sentence = sentence.replace(" ", "") # 去空格操作
sentence = sentence.lower() # 小写化操作
return sentence
- 将数据写入新文件的操作
# 将数据写入新文件操作
def write_data(path, data):
with open(path, "w", encoding