首先是报名竞赛,下载数据,比赛链接。
数据下好之后会有一个train_set和test_set。我们先把train_set分为train_set和valid_set。
先把csv格式数据读入python中
csv读入会以下两种办法:
- 用csv标准库读取
import csv
csv_reader = csv.reader(open("train_set.csv"))
- 用pandas读取
import pandas as pd
data = pd.read_csv("train_set.csv")
至于分解成两个数据集,不需要我们再随机选取,scikit-learn中有一函数train_test_split随机划分数据集和训练集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[['article','word_seg']], data['class'], test_size=0.3,random_state=2019)