数据清洗
要遍历当前文件夹下从1.x1sx
到8.x1sx
的所有文件,
提取“句子”列,‘标注’列和‘上下文情境’这三列
按顺序把excel中的这三列拼接在一起。
合并输出成一个xlsx文件。
import os
import pandas as pd
# 获取当前脚本所在的目录
current_directory = os.path.dirname(__file__)
# 切换到脚本所在的目录
os.chdir(current_directory)
# 定义文件名列表
file_names = [f"{i}.xlsx" for i in range(1, 5)]
# 用于存储所有文件的数据
all_data = []
existing_files = []
# 遍历所有文件并提取所需的三列
for file_name in file_names:
if os.path.exists(file_name): # 确保文件存在
df = pd.read_excel(file_name)
# 检查是否包含“句子”,“标注”和“上下文情境”列
if all(col in df.columns for col in ['句子', '标注', '上下文情境']):
required_columns = df[['句子&