【任务1 - 数据初识】时长:1天
首先我们下载数据
导入pandas包
import pandas as pd
from sklearn.model_selection import train_test_split
设置路径,导入数据
root_path = 'D:/CS/datawhale/new_data'
train = pd.read_csv('%s/%s' % (root_path, 'train_set.csv'))
train.head()
可以看到数据共分为“id”、“article”、“word_seg”、“class”这四个字段。
看一下概要信息
train.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102277 entries, 0 to 102276
Data columns (total 4 columns):
id 102277 non-null int64
article 102277 non-null object
word_seg 102277 non-null object
class 102277 non-null int64
dtypes: int64(2), object(2)
memory usage: 3.1+ MB
可以看出,数据没有缺失值。
将训练集拆分为训练集和验证集,按8:2划分
x= train.drop(['class'],axis=1)
y=train['class']
x_train,x_test,y_train,y_test =train_test_split(x,y,test_size=0.2,random_state=0)
print(len(x_train))
print(len(y_test))
训练集和验证集的数量:
81821
20456
小白刚开始学,第一天就这样啦。