目录
一、lirs数据集
鸢尾花数据集是一个很经典得数据集,在统计学习和机器学习经常被用作
3类共150条记录,每类各50个数据
每条记录都有4项特征:
花萼长度,花萼宽度,花瓣长度,花瓣宽度
通过4个特征预测花属于三个种类得哪一种
一般是在监督式学习,因为简单而具有代表性,常用于监督式学习应用
二、决策树实现分类
(一)模型讲解
利用信息增益最大化
第一个框内:
1.petalwidth<=0.8分类
2.entropy=1.585代表信息熵
3.samples=150代表此时得样本数量
4.values[50,50,50]代表其中每一个标签都有50个样本
5.class=setosa,把某一类占比最高得,代表说是此时得类别
6.背景色为白色就是没分好类,其他都是分好的
(二)模型训练代码
导入包
参数:
1.creiterion='entropy'选择了id3算法,增益最大化得方法
2.min_samples_leaf=5决策树可划分得节点,到5不会继续分了,上面图片就是5个
(三)可视化决策树
filled='True':代表填充颜色
feature_names=['SepalLength','SepalWidth'.......]
如果不设置特征名称,那就是x1,x2,x2....了,为了直观,写上了
class_name=[......]
输出得名称设置不然就为0,1,2
注意filled=True没有分号得,图中是错的
在网上找到数据集也是可以实现得
三、异常就检测实现
计算数据得均值和标准差,python自带
计算高斯函数
np.linspace(0,20,300)
代表0到20得300个数据点
pdf方法:概率密度函数
输入x1第一个维度得数据,均值,标准差
可视化曲线
训练模型后返回得结果是1和-1其中-1代表异常数据
具体可视化:
四、PCA实现(iris数据降维后分类)
就把4维转为2维
首先进行数据化预处理,为了方便转化,就是把方差转为0,标准差转为1
处理之后就可以模型训练了
获得每个维度方差比例
获得可视化图:
看出前两个维度非常高,把后面两个维度去除
所以把4转为2就像可以
降维后,可视化
数据分得还是比较开的,比较好了