机器学习算法总结
Greatpanc
Greatpanc@163.com
展开
-
机器学习总结之——机器学习项目完整流程
机器学习总结之——机器学习项目的完整流程1、分析项目需求,明确具体问题 进行一个项目前,首先要做的是要分析项目各个需求,以及明确各个需求所对应的具体问题并将其抽象成一个个数学问题,将项目过程转换成数学建模过程。 PS:这里的抽象成数学问题,是指这个项目中为我们提供或者我们能通过现有手段获取到什么样的数据(即我们能得到什么样的数据);目标是一个分类、回归还是一个聚类问题,如果...原创 2018-09-15 16:12:41 · 2638 阅读 · 0 评论 -
机器学习总结之——线性分类器与非线性分类器
机器学习总结之——线性分类器与非线性分类器1、线性分类器1.1线性分类器的定义 线性分类器就是用一个“超平面”将正、负样本隔离开,如: (1)二维平面上的正、负样本用一条直线来进行分类; (2)三维立体空间内的正、负样本用一个平面来进行分类; (3)N维空间内的正负样本用一个超平面来进行分类。1.2常见的线性分类器 常见的线性分类器有:LR,贝叶斯...原创 2018-09-17 09:10:55 · 14521 阅读 · 0 评论 -
机器学习总结之——各种距离汇总
机器学习总结之——各种样本距离汇总 一般在机器学习模型中会涉及到衡量两个样本间的距离,如聚类、K-Nearest Neighbor等,使用的距离可以使欧式距离,也是可以是其它距离,本文对各种距离度量的表示法进行了汇总。1、欧氏距离 最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的...原创 2018-09-25 21:23:08 · 5751 阅读 · 0 评论 -
机器学习总结之——Dummy Coding(哑变量)
机器学习总结之——Dummy Coding1、哑变量的概念 在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数β可以解释为:其他自变量不变的条件下,X=1(饮酒者)与X=0(不饮酒者)相比,所引起的因变量Y的平均变化量。 但是,当自...原创 2018-10-02 10:55:38 · 31641 阅读 · 5 评论 -
机器学习总结之——标准化与归一化的区别
机器学习总结之——标准化与归一化的区别1、标准化 简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。公式如下:x′=x−XS(其中X代表样本均值,S代表样本方差)x'=\frac{x-X}{S}(其中X代表样本均值,S代表样本方差)x′=Sx−X(其...原创 2018-09-29 09:45:04 · 3101 阅读 · 0 评论 -
机器学习总结之——KD树小白理解
机器学习总结之——KD树小白理解 KD树是k-dimension树的简称。KD树是一种树形的数据结构,目的是为了提高数据查找的效率。可以把KD树类比为一维的折半查找,只不过它是针对多维数据的。一维折半查找需要把数据先排序,做成查找表,或是做成二叉查找树,即每个节点左子树均小于节点值,而右子树均大于节点值。对多维的情况下,就需要构造KD树了。小白理解:KD树就是一棵二叉树的变形,它是将二叉树对...原创 2018-09-29 11:36:45 · 1046 阅读 · 0 评论 -
XGBoost: A Scalable Tree Boosting System翻译
XGBoost: A Scalable Tree Boosting System源文档下载地址(时间仓促翻译不好 见谅)摘要 提升树是一种非常有效且被广泛使用的机器学习方法。在本文中,我们描述了一个名为XGBoost的有延展性的端到端的树提升系统,数据科学家们广泛使用该系统来实现许多机器学习挑战的最新成果。我们提出了一种新颖的稀疏数据感知算法用于稀疏数据,一种带权值的分位数算法(weigh...翻译 2019-04-05 20:10:50 · 1492 阅读 · 1 评论