好的特征
本章比较简单,直接贴代码和图片
python代码
# coding=utf-8
# 什么是好的特征(feature)
# 要求判断狗是灰狗还是拉布拉多
# 现在的数据有2个feature,一个是身高,一个是眼睛的颜色
# 首先说身高
# 灰狗的身高大概在28cm,正负4cm
# 拉布拉多的身高大概在24cm,正负4cm
# 我们来模拟一些随机数据
import numpy as np
import matplotlib.pyplot as plt
# 生成500个数据
greyhounds = 500
labs = 500
grey_height = 28 + 4 * np.random.randn(greyhounds)
labs_height = 24 + 4 * np.random.randn(labs)
plt.hist([grey_height,labs_height],stacked=True,color=['r','b'])
plt.show();
# 可以看到图像中间段,这些区间让我们无法很好的判断狗的种类
# 所以我们需要更多的特征
# 由于狗的品种跟狗的眼睛的颜色没有直接关系,所以"眼睛的颜色"是个"坏"的特征
报表
蓝色为拉布拉多 红色为灰狗