![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 65
TheOneAc1
初级炼丹师
展开
-
Bagging 与Boosting 特点分析
bagging 与boosting的数学原理原创 2017-07-30 12:26:01 · 3784 阅读 · 0 评论 -
PCA与SVD简洁解析(参考CS231n)
PCA算法PCA的算法步骤:设有m条n维数据。1)将原始数据按列组成n行m列矩阵X2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵C=1mXXTC=1mXXT4)求出协方差矩阵的特征值及对应的特征向量5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P6)Y=PXY=PX即原创 2017-07-30 20:21:03 · 836 阅读 · 0 评论 -
回归
岭回归基本概念在进行特征选择时,一般有三种方式:1. 子集选择 2. 收缩方式(Shrinkage method),又称为正则化(Regularization)。主 要包括岭回归和lasso回归。 3. 维数缩减 岭回归(Ridge Regression)是在平方误差的基础上增加正则项 通过确定的值可以使得在方差和偏差之间达到平衡:随着的增大,模型方差减小而偏差增大。原创 2017-08-08 08:57:00 · 297 阅读 · 0 评论 -
如何选择机器学习算法
这篇文章适用于初级和中级数据科学工程师以及对区分和应用机器学习算法解决他们感兴趣的问题的的数据分析工程师初学者常见的典型问题就是面对种类繁多的机器学习算法,该如何选择使用,答案由很多因素决定,包括:- 数据量,数据质量,数据特征- 可得计算时间- 任务紧急程度- 目标操作在未尝试不同的算法之前,即便是很有经验的数据科学家也很难确定哪个算法性能更好,我们无法在确定一个一以贯之原创 2017-08-09 22:17:49 · 285 阅读 · 0 评论 -
机器学习基石系列一
问题解析规范化机器学习定义感知机:线性加权分类 类比常见的加权平均和线性组合形成分类门限值PLA:基于实例的学习,错误反馈纠正 每次迭代选择误分类样本更新权值,直到便利样本未发现误分类点线性可分结果收敛(单步优化,且存在上限,迭代优化次数也就有限)POCKET算法 随机样本点优化,收敛速度慢于PLA - 存在噪声数据时,对PLA的一种近似,通过足够多次随机迭代逼近特征函数原创 2017-08-19 02:00:57 · 268 阅读 · 0 评论 -
机器学习技法系列三
SVM泛化模型两种SVM的利用方式核技巧的本质 线性模型L2范化可核化的理解是,w*W会转换出现X*X,从而使用核函数简化计算KLR核技巧展开 L2泛化保证核函数可作用原创 2017-08-27 10:57:00 · 207 阅读 · 0 评论 -
机器学习技法系列五
Blending and Bagging aggregation: mix and combine hypotheses for better performance集成模型性能取决于子模型的期望和偏差 blending(多模型集成混合) 子决策桩的不同blending方式(线性非线性)Bagging(多次重抽样模拟多样本)AdaBoostboost:放大错误样例抽样权重,使得错误出现原创 2017-09-03 10:51:28 · 262 阅读 · 0 评论 -
回归(regression)
回归定义:岭回归与LASSO回归支持向量机转化 非线性支持向量机核函数流形学习测地线(流形空间距离)PCA流形空间距离ISOMAPKD-Tree 优化搜索树Approximate Kmeans 推荐SVD原创 2017-09-03 11:43:24 · 506 阅读 · 0 评论