横着的一行叫数据样本,如
竖着的每一列叫特征值:颜色,形状等列
想要的分类结果,叫目标值,如类别这一列,A,B,C,有3个目标值
#!usr/bin/env python
#-*- coding:utf-8 _*-
'''
@author:Administrator
@file: test.py
https://blog.csdn.net/qq_41797451/article/details/80542060
@time: 2020-02-22 上午 11:23
'''
import pandas as pd
from sklearn.model_selection import train_test_split
data=pd.read_excel("../data/yanben.xls");
print(data)
print(type(data))
#iloc只能用数字索引,不能用索引名
#print(data.iloc[:,0:4])
##loc只能通过index和columns来取,不能用数字
#print(data.loc[0:1,["序号","颜色","形状","重量"]])
#print(data['类别'])
x_data=data.iloc[:,0:4];
x_target=data['类别'];
print(x_data)
print(x_target)
#print(data.descirbe)
#
x_train,x_test,y_train,y_test=train_test_split(x_data,x_target,test_size=0.2)
print("训练集特征值:\n",x_train);
print("训练集目标值:",y_train);
print("====================")
print("测试集特征值:\n",x_test);
print("测试集目标值:",y_test);
序号 颜色 形状 重量 类别
0 1 红 圆 50 A
1 2 蓝 长 20 B
2 3 黄 椭圆 2 C
3 4 红 方 20 A
4 5 黄 长 23 B
<class 'pandas.core.frame.DataFrame'>
序号 颜色 形状 重量
0 1 红 圆 50
1 2 蓝 长 20
2 3 黄 椭圆 2
3 4 红 方 20
4 5 黄 长 23
0 A
1 B
2 C
3 A
4 B
Name: 类别, dtype: object
训练集特征值:
序号 颜色 形状 重量
3 4 红 方 20
0 1 红 圆 50
4 5 黄 长 23
1 2 蓝 长 20
训练集目标值: 3 A
0 A
4 B
1 B
Name: 类别, dtype: object
====================
测试集特征值:
序号 颜色 形状 重量
2 3 黄 椭圆 2
测试集目标值: 2 C
Name: 类别, dtype: object