![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 60
TheOneAc1
初级炼丹师
展开
-
Bagging 与Boosting 特点分析
bagging 与boosting的数学原理原创 2017-07-30 12:26:01 · 3784 阅读 · 0 评论 -
《统计学习方法》笔记三
EM 含有隐变量的概率模型参数的极大似然估计法或者极大似然后验概率估计EM算法本质EM算法 高斯混合模型:顾名思义,高斯,混合算法EM迭代:提升下界逼近全局最优GEMCOMMENTS隐马尔科夫隐马尔科夫基本概念 核心:初始状态分布,中间状态转移,由状态生成观测 应用:由大量训练资料,学习上诉三个参数矩阵,模拟资料分布状态,给出新的观测序列,反求中间状态(序列标注问题)概率计算前向原创 2017-09-16 20:43:54 · 250 阅读 · 0 评论 -
Andrew Moore CMU machine learning Notes(ML part)
墒增益增益率贝叶斯分类器朴素贝叶斯 分布规则高斯分布MLE线性回归线性感知器线性感知激活动量方法交叉验证最近邻k邻近核回归(近邻加权)局部加权(拟合加权) 高斯混合假设马尔科夫描述三问题 前向迭代层次计算解决概率计算 维比特算法动态规划记录最佳路径 模型学习EM算法EM for HMM原创 2017-09-23 18:51:09 · 399 阅读 · 0 评论 -
《统计学习方法》笔记一
统计学习对象 统计学习对象是数据,从数据出发,提取出特征,抽象出数据模型,发现数据知识,用于对回溯的分析和预测中统计学习方法 获取新年数据集合 确定所有可能包含模型的假设空间,即学习模型的集合(模型) 确定模型选择准则(策略) 实现最优求解模型的算法(算法) 选择最优模型 利用最优模型分析预测新数据 监督学习每一个输入实例由一个输入向量表示 回归:输入输出变原创 2017-09-09 16:16:44 · 962 阅读 · 0 评论 -
《统计学习方法》笔记二
逻辑回归与最大墒逻辑回归logistic分布logistic回归模型 逻辑回归中输出是输出的线性函数多项logistic回归最大墒模型最大墒模型的最优化函数拉格朗日转化 最大化过程的等价于最大熵模型的极大似然估计最优化算法*最优化算法待理解*SVM距离 当||W|| = 1 时,函数间隔等于几何间隔 间隔最大化约束最优化问题 支持向量对偶问题 线性可分支持向量机软间隔原创 2017-09-10 16:34:09 · 261 阅读 · 0 评论 -
机器学习技法系列五
Blending and Bagging aggregation: mix and combine hypotheses for better performance集成模型性能取决于子模型的期望和偏差 blending(多模型集成混合) 子决策桩的不同blending方式(线性非线性)Bagging(多次重抽样模拟多样本)AdaBoostboost:放大错误样例抽样权重,使得错误出现原创 2017-09-03 10:51:28 · 262 阅读 · 0 评论 -
回归(regression)
回归定义:岭回归与LASSO回归支持向量机转化 非线性支持向量机核函数流形学习测地线(流形空间距离)PCA流形空间距离ISOMAPKD-Tree 优化搜索树Approximate Kmeans 推荐SVD原创 2017-09-03 11:43:24 · 506 阅读 · 0 评论 -
机器学习常见算法总结
偏差方差 偏差:预测值期望E与实际值的差距,差距越大,越偏离真实数据 方差:预测值变化范围,离散程度,离期望越远方差越大 模型与真实数据的误差是两者之和 Error = Bias + Variance 模型复杂度增加,偏差减小,方差变大** 小训练集偏向于高偏差/低方差模型,因为数据集小,高偏差/低方差模型(例如,朴素贝叶斯NB)容易过拟合(over fitting)原创 2017-10-02 12:26:20 · 385 阅读 · 0 评论 -
机器学习简单梳理
模型评估与选择留出法:留出一部分作为验证集合交叉验证:轮流作为验证集合自助法:随机抽样,袋外误差作为泛化误差,袋外概率1/e 约等于0.368 自助法(boostrap):适用于小数据集,不易区分训练和测试时,抽在抽样误差查全率R:召回率 =(预测正且真实正)/真实正例查准率P:准确率= (预测正且真实正)/预测正例 F1值: 2pr/(p+r)宏查全率:多个两两分类混淆矩阵查全率原创 2017-10-03 15:26:17 · 476 阅读 · 0 评论 -
机器学习技法系列三
SVM泛化模型两种SVM的利用方式核技巧的本质 线性模型L2范化可核化的理解是,w*W会转换出现X*X,从而使用核函数简化计算KLR核技巧展开 L2泛化保证核函数可作用原创 2017-08-27 10:57:00 · 207 阅读 · 0 评论 -
机器学习技法系列二
核方法 核方法目标:简化计算复杂度,简化内积的计算多项式核 多项式核函数:不同核函数,定义不同的支持向量,导致计算出来的支持向量不同无限多维高斯核 y越大,拟合程度越大,过大会过拟合 软间隔 泛化形式之一,允许部分误分类 参数C决定允许错误的范围 软间隔的拉格朗日形式与简化 通过偏导数为0,消除冗余参数,消除冗余参数之后与硬间隔SVM形式一致 关于S原创 2017-08-22 08:17:02 · 226 阅读 · 0 评论 -
机器学习技法系列一
线性SVM 最大间隔:所有训练样例距离分界超平面的距离取最小值,最大化最小值即可获得最胖分界面支持向量条件max margin :边界最大化yn(wx+b)>0 同号同侧,表明分类正确(硬间隔)margin边界取全部样本距离最小值 转化最优,另min (y(wx+b))= 1,,边界最大化转化为max(1/w),同时可转化为min(w*w/2) 限制转为无限制 存在1-y(wx+b)原创 2017-08-19 23:30:19 · 399 阅读 · 0 评论 -
PCA与SVD简洁解析(参考CS231n)
PCA算法PCA的算法步骤:设有m条n维数据。1)将原始数据按列组成n行m列矩阵X2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵C=1mXXTC=1mXXT4)求出协方差矩阵的特征值及对应的特征向量5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P6)Y=PXY=PX即原创 2017-07-30 20:21:03 · 836 阅读 · 0 评论 -
回归
岭回归基本概念在进行特征选择时,一般有三种方式:1. 子集选择 2. 收缩方式(Shrinkage method),又称为正则化(Regularization)。主 要包括岭回归和lasso回归。 3. 维数缩减 岭回归(Ridge Regression)是在平方误差的基础上增加正则项 通过确定的值可以使得在方差和偏差之间达到平衡:随着的增大,模型方差减小而偏差增大。原创 2017-08-08 08:57:00 · 297 阅读 · 0 评论 -
如何选择机器学习算法
这篇文章适用于初级和中级数据科学工程师以及对区分和应用机器学习算法解决他们感兴趣的问题的的数据分析工程师初学者常见的典型问题就是面对种类繁多的机器学习算法,该如何选择使用,答案由很多因素决定,包括:- 数据量,数据质量,数据特征- 可得计算时间- 任务紧急程度- 目标操作在未尝试不同的算法之前,即便是很有经验的数据科学家也很难确定哪个算法性能更好,我们无法在确定一个一以贯之原创 2017-08-09 22:17:49 · 285 阅读 · 0 评论 -
机器学习基石系列一
问题解析规范化机器学习定义感知机:线性加权分类 类比常见的加权平均和线性组合形成分类门限值PLA:基于实例的学习,错误反馈纠正 每次迭代选择误分类样本更新权值,直到便利样本未发现误分类点线性可分结果收敛(单步优化,且存在上限,迭代优化次数也就有限)POCKET算法 随机样本点优化,收敛速度慢于PLA - 存在噪声数据时,对PLA的一种近似,通过足够多次随机迭代逼近特征函数原创 2017-08-19 02:00:57 · 268 阅读 · 0 评论 -
机器学习基石系列二
分类 根据输出空间的不同分类,二分类,多分类,回归,结构学习等 输出空间说明了学习目的 监督与无监督输入数据带标签(y)即为:有监督输出输出无标签(y)即为:无监督 分类聚类问题,异常检测等都是无监督半监督: 标记少量数据避免标记全量数据的麻烦原创 2017-08-19 13:03:23 · 319 阅读 · 0 评论 -
机器学习基石系列三
课程关联与可学习核心问题上界限制增长上限上界证明(不太懂)原创 2017-08-19 15:51:52 · 286 阅读 · 0 评论 -
机器学习基石系列四
vc维定义 最大非break point 点原创 2017-08-19 16:56:56 · 272 阅读 · 0 评论 -
机器学习基石系列五
线性回归平方误差梯度 矩阵求导线性回归解 求解方式PCA,SVD取决于X矩阵性质,特征值等误差逼近 n足够大时,Ein与Eout的逼近保证了线性可学习逻辑回归sigmoid函数三种线性模型比较逻辑回归优化方向梯度下降迭代优化随机梯度下降回归用于多分类OVA:每次分出一类OVO:每次区别两类,使用选举算法选择最终分类,避免不平衡原创 2017-08-19 18:51:53 · 337 阅读 · 0 评论 -
机器学习基石系列六
过拟合噪声数据和过高的VC维容易造成过拟合过拟合处理:过于拟合训练数据,泛化误差比较大泛化误差L1与L2泛化比较三个学习原则奥卡姆剃刀:简单模型更有效,复杂模型容易过拟合 抽样偏差:样本抽样不均匀,结果必然偏差(garbage in,garbage out,没有免费的午餐 )数据驱动 Comments原创 2017-08-19 19:21:37 · 270 阅读 · 0 评论 -
Gradient boosting Newton boosting
Gradient boostingNewton boostingNewton tree boosting原创 2018-01-22 17:19:57 · 620 阅读 · 0 评论