算法精选
文章平均质量分 81
peterchan88
这个作者很懒,什么都没留下…
展开
-
Earth Mover's Distance (EMD)距离
原文: http://d.hatena.ne.jp/aidiary/20120804/1344058475作者: sylvan5翻译: Myautsai和他的朋友们(Google Translate、shuanger、qiu)本文将讨论Earth Mover’s Distance (EMD),和欧式距离一样,它们都是一种距离度量的定义、可以用来测量某两个分布之间的距离。EMD主转载 2017-09-06 14:27:19 · 9307 阅读 · 0 评论 -
隐马尔科夫模型(二)
作者:henry链接:https://www.zhihu.com/question/20962240/answer/64187492来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。隐形马尔可夫模型,英文是 Hidden Markov Models,所以以下就简称 HMM。既是马尔可夫模型,就一定存在马尔可夫链,该马尔可夫链服从马尔可夫性质:即无转载 2017-08-29 19:36:55 · 655 阅读 · 0 评论 -
隐马尔科夫模型(一)
什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能转载 2017-08-29 19:35:24 · 460 阅读 · 0 评论 -
岭回归原理及代码实现
岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大转载 2017-09-14 09:59:35 · 11943 阅读 · 0 评论 -
Bagging与随机森林算法原理小结
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力转载 2017-09-14 16:12:10 · 511 阅读 · 0 评论 -
梯度提升树GBDT原理
1.模型提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型: 其中,表示决策树;为决策树的参数;M为树的个数2.学习过程回归问题提升树使用以下前向分布算法:在前向分转载 2017-09-10 13:41:25 · 503 阅读 · 0 评论 -
xgboost原理
1.序 距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。 关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT、论文、一些网络资源,希望对xgboost原理进行深入理解。(笔者在最后的参考文献中会给出地址)2.xgboost vs gbdt转载 2017-09-10 13:43:36 · 512 阅读 · 0 评论