目录
目录
前言
主要的两种技术已经讲解完毕了,接下来将一些机器学习其他常用技术(1)决策树,决策树主要还是解决分类问题,而异常检测主要帮助我们识别数据里面的异常数据点,也是机器学习其他常用技术(2)异常检测和(3)主成成分分析
一、决策树引入
逻辑回归:是把四个属性,训练模型,利用Sigmod函数预测概率
决策树:通过yes或no来判断
二、决策树
(一)概念
一种对实例进行分类的树形结构,通过多次判断,区分目标所属类别
(二)本质
通过多层判断,从训练数据集中归纳出一组分类规则
(三)优点
计算量小,运算速度快
易于理解,可清晰查看各属性的重要性
(四)缺点
忽略属性间的相关性
样本类别分布不均匀时,容易影响模型表现
三、决策树求解
(一)概括
假定给定训练数据集
其中,
为输入实例,m为特征格式,
目标:根据训练数据集构建一个决策树模型,使它能够对实例进行正确的分类
不同特征决定不同决策树。
(二)具体实现
ID3:利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝,完成决策树的构造
信息熵:是度量随机变量的不确定性的指标,熵越大,变量的不确定性就越大 。
这个公式是固定的
右边是经过新分类的信息熵,结果就是增益了
目标:划分后样本分布不确定性尽可能小,即划分后信息熵小,信息增益大
以兴趣划分为增益为0.61,增益最好的
建模效果:通过两个增益最好的
四、异常检测引入部分
正常的时候应该是圈圈里面的,其他就是异常目标
也有在图片里找到异常目标
因此异常检测的应用非常的多
五、异常检测
中间比较多,发送可能性比较大,因此可以画一个密度曲线
画出这样,如果低于某一点,则代表低概率事件,则就是异常点
(一)概率密度
概率密度函数是一个描述的随机变量在某个确定的取值点附件可能性的函数。
求积分也就是这个面积
(二)高斯分布
公式
具体实现的内容
分布图,以均值为对称轴
然后按照以下三个步骤实现
数据高于一维的情况
总而言之:只要把公式代入,低于某一密度,就是异常点
六、主成成分分析
因为输入指标非常多,那就非常难计算啊,因此有了主成分分析的方法。
(一)数据降维
是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程
(这就和线性代数里面的线性不相关,反例就是体重和身高是相关的)
作用:
减少模型分析数据量,提升处理效率,降低计算难度;
实现数据可视化
(二)数据降维的实现
PCA:数据降维技术中,应用最多的方法
目标:寻找k(k<n)维新数据,使它们反映事物主要特征
核心:在信息损失尽可能少的情况下,降低数据维度
比如:3d到2d就是空间投影。二维到一维也是找到一个直线,让数据离这个直线尽可能近的,这个直线就是转化得一维目标
如何保留主要信息:要保证投影后的不同特征数据尽可能得分开(即不相关)
如何实现:使投影后数据得方差最大,因为方差越大数据也越分散