机器学习理论
文章平均质量分 88
IvyYin
达则兼济天下
展开
-
决策树
一、简介决策树是一种基本的分类与回归方法,其主要优点是模型具有可读性,分类速度快。决策树的学习通常包括三个步骤:特征选择、决策树生成和决策树剪枝,常用的决策树算法有ID3, C4.5 和 CART,下面一一介绍。二、ID3算法1、特征选择特征选择在于选取对训练数据具有分类能力的特征,直观地讲,特征选择的目的是确定训练数据集中哪一个特征作为当前构造决策树的内部节点,ID3 算法用...原创 2018-03-30 11:59:03 · 303 阅读 · 0 评论 -
支持向量机(SVM)入门理解与推导
一、简介支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当训练样本线性不可分时,通过核技巧和软间隔...原创 2018-03-28 17:03:05 · 182902 阅读 · 48 评论 -
机器学习中的常见问题
1、过拟合的解决方法更多的训练集;加入正则化2、L1正则化和L2正则化的区别L1是取向量每个原色的绝对值和,L2是取向量每个元素的平方和的平方根;L1正则化是截断效应,它可以使一些特征的系数变小,甚至可以让一些绝对值较小的系数直接变成0;L2正则化在不抛弃人任何一个特征的情况下,缩小特征的系数,使得模型相对比较稳定,L2正则化会保留更多的特征3、SVM为什么引入对偶问...原创 2018-04-26 22:03:37 · 283 阅读 · 0 评论 -
t-SNE算法
t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在 08 年提出来。t-SNE 是一种非线性降维算法,非常适用于高维数据降维到 2 维或者 3 维,进行可视化。在实际应用中,t-SNE很少用于降维,主要用于可视化,可能的原因有以下几...原创 2018-05-13 14:27:54 · 31139 阅读 · 8 评论 -
机器学习算法常用评估指标
在认识机器学习算法的常用评估指标之前,先明确一下几个概念的定义:TP(True Positive):正样本,预测为正样本FP(False Positive):正样本,预测为负样本TN(True Negative):负样本,预测为负样本FN(False Negative):负样本,预测为正样本如果觉得不好理解,请注意其英文翻译,应该更容易理解。那么下面介绍我们常用的几个指标。一...原创 2018-05-27 21:21:55 · 3399 阅读 · 0 评论 -
梯度下降(Gradient Descent)
在求解机器学习模型参数时,即对问题进行优化时,梯度下降是最最常用的方法之一,下面对梯度下降做一个总结。一、梯度在微积分中,对多元函数的变量求偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度,比如函数 f(x,y),分别对 x, y 求偏导,得:那么这个梯度组成的向量有什么用呢?从几何意义上讲,就是函数变化增长最快的方向,或者说沿着梯度向量的方向,函数会更快找到最大值,反过来,沿...原创 2018-10-23 21:39:38 · 430 阅读 · 0 评论 -
K近邻法(k-nearest neighbor, KNN)
K近邻法(k-nearest neighbor, KNN)是一种基本分类和回归算法。对于分类问题,其输入为样本的特征向量,输出为样本的类别,可以是多类别;对于回归问题,输出是一个实值。分类时,对于新的无label实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。k 值的选择、距离度量以及分类决策规则是 k 近邻法的三要素。一、距离度量常用的距离有:欧氏距离:L2(xi,...原创 2018-10-31 11:02:04 · 447 阅读 · 0 评论 -
逻辑回归(Logistic Regression)入门理解与推导
逻辑回归(LR)是一个分类算法,它可以处理二元分类问题和多元分类问题。在介绍LR之前,先回顾一下线性回归(Liner Regression)。一、线性回归线性回归是一个回归模型,给定数据集 D={(x1,y1),(x2,y2),...,(xm,ym)}D = \{ ({x_1},{y_1}),({x_2},{y_2}),...,({x_m},{y_m})\}D={(x1,y1),(x2,...原创 2018-10-30 11:46:33 · 983 阅读 · 0 评论