在nlp任务中训练集与测试集的划分

最新推荐文章于 2022-11-11 20:32:32 发布

qq_1096260969

最新推荐文章于 2022-11-11 20:32:32 发布

阅读量700

点赞数

分类专栏：自然语言处理深度学习

本文链接：https://blog.csdn.net/qq_36489878/article/details/94590944

版权

深度学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

自然语言处理

9 篇文章 1 订阅

订阅专栏

定义一个方法，可以直接将全部的数据集划分为训练集与测试集


def  nlp_split(path,size=0.3,sep = '__label__'):
    from sklearn.model_selection import train_test_split
    label_list = []
    text_list = []
    with open(path,'r',encoding = 'utf8') as file:
        for line in file:
            label = line.split(sep)[1]
            text = line.split(sep)[0].strip('\t')
            label_list.append(label)
            text_list.append(text)
    X_train, X_test, y_train, y_test = train_test_split(text_list, label_list, test_size=size, random_state=42)
    with open('train.txt','a',encoding = 'utf8') as file:
        for i in range(len(X_train)):
            train_x = X_train[i]
            train_y = y_train[i]
            text = train_x + '\t'+sep+train_y
            file.write(text)
    with open('test.txt','a',encoding = 'utf8') as file:
        for i in range(len(X_test)):
            test_x = X_test[i]
            test_y = y_test[i]
            text = test_x + '\t'+sep+test_y
            file.write(text)

其中