#使用sklearn.cross_valiation里的train_test_split模块用于分割数据
from sklearn.cross_validation import train_test_split
#随机采样25%的数据用于预测,剩下75%用于构建训练集合
x_train,x_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)
#查验训练样本的数量和类别的分布
y_train.value_counts()
y_test.value_counts()
函数说明:
Series:
Series和DataFrame是pandas中的两个基本数据结构。具体用法如下。
情况一:
import pandas as pd
s=pd.Series([1,2,3,4,5],index=['a','b','c','f','e'])
print (s)
a 1
b 2
c 3
f 4
e 5
dtype: int64
情况二:
import pandas as pd
s=pd.Series({'a':3,'b':4,'c':5,'f':6,'e':8})
print (s)
a 3
b 4
c 5
e 8
f 6
dtype: int64
value_counts():
value_counts()是用于统计数据出现频率。
import pandas as pd
import
data=pd.Series(['python','java','python','php','php','java','python','java'])
print(data.value_counts())
java 3
python 3
php 2
dtype: int64