首先我的目标是将一个.csv文件中的内容给分割开来。
分为训练集与测试集。但是折腾了一天,才发现有更加简单的方法实现。
使用pandas包。
train.to_csv('the_train.csv', encoding='utf_8_sig', sep='\t', header=None)
# 测试集
test = train.sample(frac=0.1, replace=False, random_state=5, axis=0)
# 训练集,余下的数据作为训练集
train = train[~train.index.isin(test.index)]
# 将两个文件保存为csv文件
test.to_csv('test.csv', encoding='utf_8_sig', sep='\t', header=None, index=None)
train.to_csv('train.csv', encoding='utf_8_sig', sep='\t', header=None, index=None)
先随机抽取出我需要的测试集,将其保存为csv文件。
其次,将剩下的数据转换为训练集。