机器学习算法
远行人_Xu
nlp工程师
展开
-
{降维} ISOMAP等距特征映射 & MDS多维标度法
首发:https://zhuanlan.zhihu.com/p/60599491介绍两种降维方法镇楼_MDS: http://www.utdallas.edu/~herve/Abdi-MDS2007-pretty.pdf镇楼_ISOMAP: http://www-clmc.usc.edu/publications/T/tenenbaum-Science2000.pdfMultidimensional Scaling (MDS) 多维标度法1、经典应用场景在不知各点坐标的,仅知道各点间距离的情况原创 2020-07-07 15:41:00 · 741 阅读 · 0 评论 -
降维方法小结和理解:PCA、LDA、MDS、ISOMAP、SNE、T-SNE、AutoEncoder
PCA:Principle component analysis 主成分分析百度百科:它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。PCA是无监督的。(其实也可以不降维,比如上面的x1和x2变成了y1和y2,就没降维。)LDA:Linear Discriminant Analysis 线性判别分析区别于原创 2020-07-07 15:28:40 · 3274 阅读 · 0 评论 -
【随笔】暴力、通透讲解:信息熵 & 交叉熵
收发地址:https://zhuanlan.zhihu.com/p/68363765本文是随笔哈,想到哪里写到哪里。------------------------ 割 -------------------------上面公式是信息熵公式,“热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。”那为什么上述公式就能代表某事情的不确定程度呢?(或者叫混乱程度)??怎么做到的呢????我在上学学概率时候就是楞背下来公式的,老师讲的、书里写的都太抽象了,联系公式最初原创 2020-06-26 23:59:39 · 221 阅读 · 0 评论 -
决策树系列思路(ID3、C4.5、CART、adaboost、GBDT、xgboost)
首发链接:https://zhuanlan.zhihu.com/p/149950949本文涉及决策树、随机森林、adaboost、xgboost等的思路系统。都是大思路,和各算法之间的差异对比,没有推导过程。1、单棵决策树单棵决策树的思路是,在现有节点选择某种划分方式,生成新的多个子节点,反复重复,直至某种限制条件让新增过程终止。其中的划分过程详细是,预先设定某项指标,选择某列特征作为划分方式,然后计算在该列特征划分数据集前后之间,该指标的变化量,变化的越大就越应该选择该列特征作为划分标准。这种思原创 2020-06-22 15:21:50 · 319 阅读 · 0 评论 -
GBDT详解
原地址:https://www.cnblogs.com/peizhe123/p/5086128.htmlGBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(...转载 2018-02-21 15:36:32 · 351 阅读 · 0 评论