模型训练基本流程
一、数据读入
1.使用库pandas
2.read_csv函数中,header=None,表示不读入表的列名,sep来指明文件的分隔符。
1train=pandas.read_csv('文件名',hearder=,sep=‘’)
二、数据处理
pandas.drop函数默认删除行,axis=1,则删除列;inplace=True就是替代原先的矩阵;为false则是复制矩阵进行操作,需要赋值给其他变量。
可以用于将特征与标签分离1
2tabel=train[标签所在列]
train.drop([标签所在列],axis=1,inplace=True)
列空值添加1train[x].fillna(train[x].mean,inplace=true)
空值删除1
2train=train.dropna(axis=0) #删除空值行
train=train.dropna(axis=1) # 删除空值列
哑编码对非序数类型进行one-hot编码,即将非序数类型的字符类数据转换为多个字段对应的多个值,行转列。
处理方式:sklearn.feature_extraction.dictVectorizer、pandas.getdummies.
dictVectorizer
可以一次性处理所有的数值列。
1
2
3
4dict_vec = DictVectorizer(sparse=False)# sparse=False意思是不产生稀疏矩阵。
x_train=dict_vec.fit_transform(x_train