一个简单的切分数据集的python代码

最新推荐文章于 2024-04-14 23:27:33 发布

中科小白

最新推荐文章于 2024-04-14 23:27:33 发布

阅读量1.7k

点赞数

分类专栏： python 数据处理代码工具文章标签：数据集切分 pandas

本文链接：https://blog.csdn.net/qq_42278138/article/details/103186595

版权

python 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

数据处理

7 篇文章 1 订阅

订阅专栏

代码工具

2 篇文章 0 订阅

订阅专栏

数据集：一个中文的酒店评论数据集（一万多条数据，正负向情感标注）

任务：切分为训练和发展集

数据集示例：

代码：

import os
import pandas as pd
from sklearn.utils import shuffle


if __name__ == '__main__':
    path = "temp/"
    pd_all = pd.read_csv(os.path.join(path, "zh_senti_dataset.tsv"),sep='\t')
    pd_all = shuffle(pd_all)
    dev_set = pd_all.iloc[0:int(pd_all.shape[0]/10)]
    train_set = pd_all.iloc[int(pd_all.shape[0]/10): int(pd_all.shape[0])]
    dev_set.to_csv("temp/dev.tsv", index=False, sep='\t')
    train_set.to_csv("temp/train.tsv", index=False, sep='\t')

解释：主要用到了pandas的read_csv()、to_csv()方法实现数据集文件的读写，iloc函数实现对数据行的提取，用shuffle()方法实现打乱顺序。

中科小白

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
一个简单的切分数据集的python代码

数据集：一个中文的酒店评论数据集（一万多条数据，正负向情感标注）任务：切分为训练和发展集数据集示例：代码：import osimport pandas as pdfrom sklearn.utils import shuffleif __name__ == '__main__': path = "temp/" pd_all = pd.read_csv...
复制链接

扫一扫

专栏目录