python & pandas 拆分csv文件

import pandas as pd
from sklearn.model_selection import train_test_split


def split_data(data_df, filepath1, filepath2):
    X_train, X_val, y_train, y_val = train_test_split(data_df['text'], data_df['label'], test_size=0.15, random_state=2022)
    new_train_df = pd.DataFrame()
    new_train_df['text'] = X_train
    new_train_df['label'] = y_train
    new_test_df = pd.DataFrame()
    new_test_df['text'] = X_val
    new_test_df['label'] = y_val
    new_train_df.to_csv(filepath1.format(len(new_train_df)), index=False)
    new_test_df.to_csv(filepath2.format(len(new_test_df)), index=False)
    print('yeah.', filepath1.format(len(new_train_df)), filepath2.format(len(new_test_df)))
    print('done')



data_df = pd.read_csv('lic_event.csv')
split_data(data_df, 'train_lic_event.csv', 'test_lic_event.csv')

当进行模型训练时,可能需要手动把一份文件一分为二的情况,可使用上述方法;

此外,还有,如果需要按照label进行拆分时,可修改上述方法第一行如下:

X_train, X_val, y_train, y_val = train_test_split(data_df['text'], data_df['label'], test_size=0.2, random_state=2022, stratify=data_df['label'])

但是,需注意,此方法要求label中每个标签个数至少为2;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值