机器学习算法
文章平均质量分 94
贪玩懒悦
这个作者很懒,什么都没留下…
展开
-
殊途同归的两种角度理解岭回归(内含有sklearn例子)
在学习统计学专业课《回归分析技术》时学过岭回归,学机器学习时也涉及到岭回归,但是两个角度的思想方法略有不同,但最后的结果却是殊途同归的,最近准备统计学考研的复试时,对比了两种思路,觉得很有意思,把一些思考过程分享出来。角度一:统计学角度之下的岭回归1.1 岭回归要解决什么问题?岭回归的产生是为了弥补最小二乘估计的不足之处:(1)最小二乘估计要求数据满足基本假定条件(变量之间不相关,残差项零均值、等方差、不序列相关),但实际中,能满足这个要求的数据是很少的,尤其是经济数据,变量之间有很强相关性(2)原创 2022-03-16 10:07:21 · 2068 阅读 · 0 评论 -
异常值挖掘方法——孤立森林Isolation Forest
异常值挖掘方法一、内容概览内容大致分为两大部分,第一部分是异常值挖掘方法概述,简略介绍异常值挖掘方法的分类及其优缺点。第二部分介绍孤立森林算法(iForest),Isolation Forest 简称 iForest,该算法是周志华在2010年提出的一个异常值检测算法,在工业界很实用,算法效果好,时间效率高。第二部分包括对iForest算法思想、原理、流程的介绍,以及来自sklearn官网上的一个iForest例子实战讲解,并附上代码与注释。二、异常值挖掘方法概述2.1统计量检验先对变量做一个描述原创 2022-03-16 10:00:03 · 4196 阅读 · 0 评论 -
主成分分析学习笔记+sklearn人脸识别例子
降维算法之PCA一、降维算法概述高维数据不易于存储与分析,在处理高维数据之前往往要对其进行维归约,也叫降维。在高维数据中,必然有些特征是不带有有效的信息的(比如噪音),或者有些特征带有的信息和其他些特征是重复的(比如些特征可能会线性相关)。我们希望能够找出种办法来帮助 我们衡量特征上所带的信息量,让我们在降维的过程中,能够即减少特征的数量,又保留大部分有效信息将那 些带有重复信息的特征合并,并删除那些带无效信息的特征等等逐渐创造出能够代表原特征矩阵大部分信息 的,特征更少的,新特征矩阵。维归约算法大致原创 2022-03-01 20:58:22 · 898 阅读 · 0 评论 -
随机森林学习笔记
以下内容参考资料有:周志华《西瓜书》李航《统计学习方法》哔哩哔哩白板推导@shuhuai008哔哩哔哩菜菜的sciki-learn课堂《机器学习实战》吴喜之《多元统计分析——R与python的实现》sciki-learn中random forest的常用接口接口作用apply输入测试集,返回测试样本所在的叶子节点索引predictscorefitpredict_proba返回样本被分到每一类的概率,有几类就返回几个概率。如果是二分类问题,原创 2020-07-25 00:31:06 · 459 阅读 · 0 评论