机器学习常用方法代码实现——机器学习笔记(六)

目录

一、lirs数据集

二、决策树实现分类

(一)模型讲解

 (二)模型训练代码

 (三)可视化决策树

三、异常就检测实现

四、PCA实现(iris数据降维后分类)


一、lirs数据集

鸢尾花数据集是一个很经典得数据集,在统计学习和机器学习经常被用作

3类共150条记录,每类各50个数据

每条记录都有4项特征:

花萼长度,花萼宽度,花瓣长度,花瓣宽度

通过4个特征预测花属于三个种类得哪一种

 

 一般是在监督式学习,因为简单而具有代表性,常用于监督式学习应用

二、决策树实现分类

(一)模型讲解

利用信息增益最大化

第一个框内:

1.petalwidth<=0.8分类

2.entropy=1.585代表信息熵

3.samples=150代表此时得样本数量

4.values[50,50,50]代表其中每一个标签都有50个样本

5.class=setosa,把某一类占比最高得,代表说是此时得类别

6.背景色为白色就是没分好类,其他都是分好的

 (二)模型训练代码

 导入包

参数:

1.creiterion='entropy'选择了id3算法,增益最大化得方法

2.min_samples_leaf=5决策树可划分得节点,到5不会继续分了,上面图片就是5个

 (三)可视化决策树

filled='True':代表填充颜色

feature_names=['SepalLength','SepalWidth'.......]

如果不设置特征名称,那就是x1,x2,x2....了,为了直观,写上了

class_name=[......]

输出得名称设置不然就为0,1,2

注意filled=True没有分号得,图中是错的

在网上找到数据集也是可以实现得

 

三、异常就检测实现

计算数据得均值和标准差,python自带 

计算高斯函数

np.linspace(0,20,300)

代表0到20得300个数据点

pdf方法:概率密度函数

输入x1第一个维度得数据,均值,标准差

 可视化曲线

训练模型后返回得结果是1和-1其中-1代表异常数据

 具体可视化:

四、PCA实现(iris数据降维后分类)

就把4维转为2维

首先进行数据化预处理,为了方便转化,就是把方差转为0,标准差转为1

 处理之后就可以模型训练了

 获得每个维度方差比例

获得可视化图:

看出前两个维度非常高,把后面两个维度去除

 所以把4转为2就像可以 

降维后,可视化

数据分得还是比较开的,比较好了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rosen6664

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值