数据竞赛达观杯（1）

最新推荐文章于 2020-12-24 20:35:00 发布

orient928

最新推荐文章于 2020-12-24 20:35:00 发布

阅读量252

点赞数

分类专栏：数据竞赛达观杯

本文链接：https://blog.csdn.net/orient928/article/details/89051705

版权

文章目录

一.读取数据
二.将训练集拆分为训练集和验证集

一.读取数据

import numpy as np
import pandas as pd

training = pd.read_csv("../new_data/train_set.csv")
print(training.head())

数据包含2个csv文件：

train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：
第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注(class)。
注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！

test_set.csv：此数据用于测试。数据格式同train_set.csv，但不包含class。
注：test_set与train_test中文章id的编号是独立的。

print(training.shape)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

orient928

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据竞赛达观杯（1）

写在前面：由于个人原因导致昨晚没有按时交作业，感谢管理员的不请之恩，之后一定按时完成，已此为记！文章目录一.读取数据二.将训练集拆分为训练集和验证集一.读取数据import numpy as npimport pandas as pdtraining = pd.read_csv("../new_data/train_set.csv")print(training.head())...
复制链接

扫一扫