![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
liuy9803
这个作者很懒,什么都没留下…
展开
-
机器学习之数学基础
机器学习之数学基础一、常见导数 和差积商求导法则: 复合函数: 多变量函数 求偏导,即只有某一个自变量变化,固定其他自变量(看做常量): 梯度:函数的梯度是一个向量,它的方向与取得最大方向导数的方向一致,模为方向导数的最大值。 ...原创 2018-05-26 07:41:14 · 995 阅读 · 0 评论 -
机器学习之朴素贝叶斯、贝叶斯网络
一、贝叶斯决策论 贝叶斯决策论(Bayesian decision theory)是在概率框架下实施决策方案的基本方法。不要求分类器给出明确的分类结果,而是要给出一个最大概率的类别估计。基本思想是,利用已知类的条件概率和先验概率估计部分未知概率,应用贝叶斯公式转换为后验概率,根据期望损失最小化/后验概率最大化的方法得出最优决策。 使用这种方法得到的模型是生成式模型,即...原创 2018-06-29 16:10:07 · 2354 阅读 · 0 评论 -
机器学习之SVM软间隔模型、核函数
SVM的软间隔(soft margin)模型 当线性数据集中存在少量的异常点,导致数据集不是线性可分,或者即使恰好找到某个核函数使得训练集在特征空间中线性可分,也很难断定这个结果是不是由于过拟合所造成的。解决方法之一是允许SVM在一些样本上分错,因此引入软间隔的概念来解决此类问题。 硬间隔:要求所有样本满足约束,函数距离大于等于1; 软间隔:允许某些样本...原创 2018-06-17 23:14:35 · 3273 阅读 · 0 评论 -
机器学习之层次聚类算法
层次聚类(Hierarchical Clustering)是对给定数据集在不同层次进行划分,形成树形的聚类结构,直到满足某种停止条件为止。数据集的划分可采用自底向上或自顶向下的划分策略。 1、凝聚的层次聚类算法AGNES AGNES(AGglomerative NESTing)采用自底向上的策略,先将每个样本作为一个初始聚类簇,然后循环将距离最近的两个簇进行合并,直到...原创 2018-06-25 12:07:34 · 4202 阅读 · 0 评论 -
机器学习之SMO、SVR
序列最小优化算法SMO SVM的学习问题可以形式化为求解凸二次规划问题,这样的问题具有全局最优解。但是当训练集样本数量很大时,计算开销正比于样本数,并且在实现上也十分复杂。因此引入SMO(Sequential Minimal Optimization)算法,将大的复杂的优化问题分解为多个小的简单的优化问题,最终的结果完全相同且求解时间缩短很多。 SMO算法是一种启发式(...原创 2018-06-19 15:25:21 · 3074 阅读 · 5 评论 -
机器学习之密度聚类算法
基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一个区域中的样本密度大于某个阈值,就把它划入与之相近的簇中。 密度聚类从样本密度的角度进行考察样本之间的可连接性,并由可连接样本不断扩展直到获得最终的聚类结果。这类算法可以克服K-means、BIRCH等只适用于凸样本集的情况。 常用的密度聚...原创 2018-06-26 11:22:23 · 23771 阅读 · 0 评论 -
机器学习之EM算法
EM(Expectation-Maximization)算法是一种启发式的迭代方法,用于含有隐变量Z(latent variable)的概率模型参数Θ的最大似然/最大后验估计。由于含有隐变量不能直接使用MLE、MAP,因此用隐变量的期望来代替它,再通过最大化对数边际似然(marginal likelihood)来逐步逼近原函数的极大值,EM的优点是简单、稳定,但容易陷入局部最优解。...原创 2018-07-01 11:52:21 · 1778 阅读 · 0 评论 -
机器学习之谱聚类算法
参考https://www.cnblogs.com/pinard/p/6221564.html 谱聚类(spectral clustering)是一种基于图论的聚类算法,第一步是构图:将数据集中的每个对象看做空间中的点V,将这些点之用边E连接起来,距离较远的两个点之间的边权重值较低、距离较近的两个点之间的边权重值较高,这样就构成了一个基于相似度的无向权重图G(V,E)...原创 2018-06-27 17:32:55 · 10298 阅读 · 3 评论 -
机器学习之HMM
机器学习最重要的任务,是根据已观测到的数据(如训练样本)对感兴趣的未知变量(如类别标记)进行推断(inference)。概率图模型是用图表达变量相关关系的概率模型,分为“有向无环图模型/贝叶斯网”和“无向图模型/马尔可夫网”两类。 一、马尔可夫性质 马尔可夫性质(Markov property)是概率论中的一个概念,当一个随机过程在给定现在状态...原创 2018-07-05 16:21:37 · 1630 阅读 · 0 评论 -
机器学习主题模型之LDA概念
隐含狄利克雷分布(Latent Dirichlet allocation)是一种生成式统计模型,是泛化的pLSA模型,区别在于LDA假设主题分布是稀疏的Dirichlet prior,即所有文档只覆盖一小部分的主题,且这些主题只频繁地使用一小部分的单词。LDA是三层贝叶斯模型,基于变分方法的近似推理和经验贝叶斯参数估计的EM算法,使用“先验分布”和“数据对数似然”得出“后验分布”,再用后验分布...原创 2018-07-18 21:33:26 · 3685 阅读 · 0 评论 -
机器学习主题模型之LSA、pLSA、NMF
一、主题模型(Topic Model) 判断文档相似性的传统方法是通过查看两个文档共同出现的词项(terms,不重复的words)有多少,如TF-IDF等。但这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的词项很少甚至没有,但两个文档是相似的。 主题模型是用来在大量文档中发现潜在主题的一种统计模型。如果一篇文章有一个中心思想,那么一些特定词语会出现的比较...原创 2018-07-13 12:37:04 · 9302 阅读 · 2 评论 -
机器学习主题模型之LDA参数求解——Gibbs采样
LDA参数推导的Gibbs采样方法基于马尔科夫链蒙特卡洛方法,因此首先学习MCMC方法。一、马尔科夫链蒙特卡洛方法MCMC(Markov Chain Monte Carlo)方法是构造适合的马尔科夫链,使其平稳分布为待估参数的后验分布,抽样并使用蒙特卡洛方法进行积分计算,实现了抽样分布随模拟的进行而改变的动态模拟,弥补了传统蒙特卡洛积分只能静态模拟的缺陷。1、蒙特卡洛方法蒙特...原创 2018-07-26 23:26:03 · 13076 阅读 · 2 评论 -
机器学习之GBDT、XGBoost
一、梯度提升决策树GBDT GBDT(Gradient Boosting Decision Tree)是Boosting算法的一种,每轮迭代是在上一轮弱学习器的损失函数梯度下降的方向上,训练产生新的弱学习器,所有弱学习器加权组合得到最终的强学习器。GBDT对弱学习器的要求是要足够简单,即低方差&高偏差,一般深度不会超过5,叶子节点的数量也不会超过10,默认选择CART回归树。...原创 2018-06-10 12:52:31 · 2852 阅读 · 0 评论 -
机器学习之初识支持向量机
支持向量机SVM(Support Vector Machine)是二元分类算法,支持线性分类、非线性分类以及回归问题(SVR),并且通过OVR或OVO的方式可以将SVM应用在多分类领域。在不考虑集成学习算法、特定的数据集等情况时,SVM可以认为是最优秀的分类算法。 SVM的主要思想是: (1)构建最优分割超平面(separating hyper-plan...原创 2018-06-17 10:26:08 · 416 阅读 · 0 评论 -
机器学习概述
机器学习概述一、机器学习的定义机器学习是一门从数据中研究算法的多领域交叉学科,研究计算机如何模拟或实现人类的学习行为,根据已有的数据或以往的经验进行算法选择、构建模型,预测新数据,并重新组织已有的知识结构使之不断改进自身的性能。Machine Learning (ML) is a scientific discipline that deals with the constructio...原创 2018-05-25 22:56:41 · 10714 阅读 · 1 评论 -
机器学习之决策树
一、信息熵 1、比特化(Bits) 当随机变量的概率为等概率时,可以用两个比特位来表示一个随机变量。 E.g. P(X=A)=P(X=B)=P(X=C)=P(X=D)=1/4 E(X)=(1/4*2) * 4=-log2(1/4) *(1/4) * 4=2 当随机变量中每个变量出现的概率值不一样时,出现概率大的变量用...原创 2018-06-03 01:05:45 · 611 阅读 · 0 评论 -
机器学习之集成学习
一、集成学习 集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法,而更像是一种优化策略。 集成学习的一般结构是,先产生一组个体学习器,再用某种结合策略将它们结合起来。 集成学习优势在于: ...原创 2018-06-06 17:56:00 · 2314 阅读 · 0 评论 -
机器学习之聚类概述及评价指标
聚类是一种无监督学习算法,训练样本的标记未知,按照某个标准或数据的内在性质及规律,将样本划分为若干个不相交的子集,每个子集称为一个簇(cluster),每个簇中至少包含一个对象,每个对象属于且仅属于一个簇;簇内部的数据相似度较高,簇之间的数据相似度很低。聚类可以作为分类等其他学习任务的前驱过程。 基于不同的学习策略,聚类算法可分为多种类型: 聚类算法衡...原创 2018-06-21 17:11:22 · 29930 阅读 · 4 评论 -
机器学习之随机森林
随机森林(Random Forest)是Bagging的一个扩展变体,以随机选择的属性构建的决策树为基学习器,然后对这些基学习器进行集成的一种集成学习方法。随机森林可以用于分类和回归的任务,同时也是一种数据降维手段,用于处理缺失值、异常值以及其他数据探索中的重要步骤。 随机森林具体的构建方法是 (1)从原始样本集m个样本中使用bootstrap采样法选出m个样本; ...原创 2018-06-07 17:45:15 · 1721 阅读 · 0 评论 -
机器学习之线性回归模型
回归算法是一种有监督学习算法,用来建立自变量X和观测变量Y之间的映射关系,如果观测变量是离散的,则称其为分类Classification;如果观测变量是连续的,则称其为回归Regression。 回归算法的目的是寻找假设函数hypothesis来最好的拟合给定的数据集。常用的回归算法有:线性回归(Linear Regression)、逻辑回归(Logi...原创 2018-06-01 10:38:00 · 25153 阅读 · 3 评论 -
线性回归的过拟合与欠拟合
借用Andrew Ng的PPT,下图分别对应特征多项式阶数d=1、2、4的情况,由此可知,特征多项式的阶数不是越高越好。 一、欠拟合的解决方法 1、分析数据,增加特征维度; 2、增加多项式特征阶数; 3、减小正则项的超参系数值; 4、局部加权回归 二、过拟合的解决方法 1、分析数据,重新做数据清洗、特征工程...原创 2018-06-01 10:48:07 · 6370 阅读 · 0 评论 -
机器学习之逻辑回归、Softmax回归
逻辑回归模型 1、Odds(比值比/优势比) 用来衡量特征当中分类之间关联的一种方式,指的是该事件发生的概率与该事件不发生的概率的比值,即p/(1-p) 2、Logit函数 也称评定模型、分类评定模型,是最早的离散选择模型 3、Logistic/Sigmoid函数 ...原创 2018-06-01 12:30:27 · 779 阅读 · 0 评论 -
机器学习之K-means、Canopy聚类
一、K-means算法 K-均值算法是发现给定数据集的k个簇的算法,簇个数是用户给定的,每一个簇通过其质心(centroid)即簇中所有点的中心来描述。 1、K-均值算法的流程: (1)对于输入样本集 {x1,x2,...,xm},随机确定k个质心 {μ1,μ2,...,μk}; (2)计算每个样本xj到各个质心μi的欧式距离:dji=||xj-μ...原创 2018-06-22 23:42:53 · 10372 阅读 · 2 评论 -
机器学习之KNN算法
一、kNN算法 K近邻算法(k-nearest neighbors)是一种简单的有监督学习算法,其工作机制是:给定测试样本,基于某种距离度量找出训练集中与其最接近的k个样本,基于这k个‘邻居’的信息来进行预测。kNN算法既可以应用于分类也可以应用于回归问题,主要区别在于采取的决策方式不同。 kNN算法没有显示的训练过程,为lazy learning,即在训练阶段仅仅是把...原创 2018-06-01 17:56:13 · 5830 阅读 · 0 评论 -
机器学习之AdaBoost
Adaptive Boosting(自适应增强)是一种迭代算法,它的主要思想是:每次迭代调整样本的权重,并用更新过权重值的数据集训练下一个弱学习器,直到达到某个预定的足够小的错误率、或者达到指定的最大迭代次数之后,将各个弱学习器加权组合为最终的强学习器。 该算法每次迭代改变的是样本的权重(re-weighting),如果无法接受带权样本的基学习算法,则可进行重采样法(...原创 2018-06-08 17:09:44 · 488 阅读 · 0 评论 -
机器学习主题模型之LDA参数求解——变分推断+EM近似
由上一篇可知LDA主要有两个任务:对现有文集确定LDA模型参数α、η的值;或对一篇新文档,根据模型确定隐变量的分布p(β,z,θ|w,α,η)。由于无法直接求出这个后验分布,因此可以考虑使用Laplace近似、变分近似、MCMC、Gibbs采样法等算法求解。 1、变分推断(variational inference)我们希望找到合适的α、η使对似然函数最大化,并求出隐变量的条件概率...原创 2018-07-22 21:24:00 · 8073 阅读 · 0 评论