机器学习
文章平均质量分 80
qq_16608563
这个作者很懒,什么都没留下…
展开
-
深入理解梯度下降算法
下降方向:设x,d∈Rn.若存在数α>0,使得x,d∈R^n.若存在数α>0,使得x,d∈Rn.若存在数α>0,使得f(x+αd)<f(x)f(x+αd)<f(x)f(x+αd)<f(x)则称d是函数fff在点xxx处的一个下降方向。下降方向ddd从几何上可解释为:当点从xxx出发,沿着方向ddd移动时,函数fff的值的变化呈单调递减的趋势。梯度下降算...原创 2019-10-26 10:51:07 · 1319 阅读 · 0 评论 -
详解SVM系列(六):深入解析 序列最小最优化SMO算法一
SMO算法是干啥的首先要先搞明白一个基本的问题: SMO算法是干啥的?通过前面的介绍,我们现在掌握了线性不可分支持向量机。其形式为如下的凸二次规划:min12∑i=1N∑J=1NαiαjyiyjK(xixj)−∑i=1Nαimin\frac{1}{2}\displaystyle\sum_{i=1}^{N}\displaystyle\sum_{J=1}^{N}α_iα_jy_iy_jK(x_i...原创 2018-11-12 13:54:25 · 382 阅读 · 0 评论 -
深入解析朴素贝叶斯算法
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。1)对于给定的数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布;2)然后基于此模型,对给定的输入xxx,利用贝叶斯定理求出后验概率最大的输出yyy下面我们就围绕上面2个步骤进行介绍。基本概念:先验概率:是根据以往的经验和分析得到的概率(先验概率是我们在未知条件下对事件发生可能性猜测的数学表示)后验概率:事情已经发生,...原创 2018-11-12 19:59:52 · 173 阅读 · 0 评论 -
深入解析最大熵模型
不要把鸡蛋放到一个篮子里理解了这句话其实已经理解了最大熵模型的精髓了,不过这句话还是有点含蓄,下面讲一下我的理解,欢迎交流。“不要把鸡蛋放到一个篮子里”,这样可以降低风险。为啥不放到一个篮子里就可以降低风险啊?如果有人告诉你就算世界毁灭这个篮子也不会破也不会摔倒地上,那么就永远不会有风险(鸡蛋永远不会摔破)遗憾的是,没有人告诉过你(暗含我们没有足够的知识做出这样的推理),既然有风险就说明篮...原创 2018-11-15 10:58:17 · 240 阅读 · 0 评论 -
高斯混合模型(GMM Gaussian Mixture Model)
高斯混合模型是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大算法(EM)进行训练。原创 2018-11-23 17:45:28 · 1116 阅读 · 0 评论 -
EM算法及其推广(一)
EM算法是个什么东东EM算法(Expectation-maximization algorithm 期望最大化算法),是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率(事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小)估计。拆解一下:1)形式上或者叫算法过程是一个迭代的过程,分为E步:求期望,M步:求极大,直到收敛。2)概率模型依赖于无法观察的隐...原创 2018-11-23 09:27:16 · 441 阅读 · 0 评论 -
隐马尔科夫模型(二)
概率计算算法给定模型λ=(A,B,π)λ=(A,B,π)λ=(A,B,π),观测序列O=(o1,o2,…oT)O=(o_1,o_2,…o_T)O=(o1,o2,…oT),计算在模型λλλ下观测序列O出现的概率这被称作概率计算问题主要介绍计算观测序列概率P(O∣λ)P(O|λ)P(O∣λ)的前向与后向算法。先介绍概念上可行但计算上不可行的直接计算法直接计算法:给定模型λ=(A,B,...原创 2018-11-29 11:19:21 · 168 阅读 · 0 评论 -
隐马尔科夫模型(一)
基本概念要理解隐马尔科夫模型,首先要回答三个问题1)什么是马尔科夫性?2)什么是马尔科夫链?3)什么是马尔科夫过程?马尔科夫性:要介绍马尔科夫性,还要先了解下随机过程的概念。百度百科给出的随机过程的定义:随机过程是依赖于参数的一族随机变量的全体,参数通常是时间。一般来说,把一组随机变量定义为随机过程,在研究随机过程时人们通过表面的偶然性描述出必然的内在规律性并以概率的形式来描述这些...原创 2018-11-26 17:24:34 · 249 阅读 · 0 评论 -
隐马尔科夫模型(四)预测算法
预测问题,也称作解码问题。已知模型λ=(A,B,π)λ=(A,B,π)λ=(A,B,π)和观测序列O=(o1,o2……oT)O=(o_1,o_2……o_T)O=(o1,o2……oT)求对给定观测序列条件概率P(I|O)最大的状态序列I=(i1,i2……iT)I=(i_1,i_2……i_T)I=(i1,i2……iT).即给定观测序列,求最可能的对应的状态序列。预测算法:近似算法与维特比...原创 2018-12-04 19:37:19 · 2629 阅读 · 0 评论 -
隐马尔科夫模型(三)学习算法
隐马尔科夫模型的学习,根据训练数据时包括观测序列和对应的状态序列还是只有观测序列,可以分别有监督学习和非监督学习实现。监督学习方法假设已给的训练数据中,包含S个长度相同的观测序列和对应的状态序列{(O1,I1),(O2,I2)……(OS,IS)}\{(O_1,I_1),(O_2,I_2)……(O_S,I_S)\}{(O1,I1),(O2,I2)……(OS,IS)},那么可以利用极...原创 2018-12-03 21:16:29 · 318 阅读 · 0 评论 -
模型选择的方法——正则化与交叉验证
在典型的机器学习应用中,为进一步提高模型在预测未知数据的性能,还要对不同的参数设置进行调优与比较,该过程称为模型选择,指的是针对某一特定问题,调整参数以寻求最优超参数的过程。偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据集。学习算法的期望预测为(学习不变,模型参数不变,期望是针对数据集而言的,同样的算法不同的数据集)f(x)=ED[f(x;D)]]f(x)=E...翻译 2019-04-04 15:23:49 · 3391 阅读 · 2 评论 -
数据降维——主成分分析PCA
一:预备知识向量向量的内积与投影:两个向量A, B 内积的计算公式为:A▪B=∣A∣∣B∣cos(α)A▪B=|A||B|cos(α)A▪B=∣A∣∣B∣cos(α)1)向量内积的几何解释就是:向量A在向量B上的投影长度(∣A∣cos(α)|A|cos(α)∣A∣cos(α))乘以向量B的模特别的,如果一个向量如a是某个坐标轴的单位向量,那么两个向量的内积a▪ba▪ba▪b就是向量在此...原创 2019-04-05 15:47:04 · 775 阅读 · 0 评论 -
梯度下降与随机梯度下降深入理解
1基础知识:偏导数与方向导数:对于多元函数,如果说偏导数表示的是多元函数在沿坐标轴的变化率,那么可以说方向导数是沿着任意指定的方向的变化率,不一定是沿着坐标轴。方向导数:讨论下函数z=f(x,y)z=f(x,y)z=f(x,y)在一点PPP沿着某一方向的变化率问题。定义:设函数z=f(x,y)在点P(x,y)的某一邻域U(p)内有定义,自点P引射线l.设x轴正向到射线l的转角为φ,并设P...原创 2019-04-10 19:47:18 · 285 阅读 · 0 评论 -
模型选择与评估
交叉验证:评估估计器性能为了防止出现过拟合的情况,一般需要将数据分为训练集和测试集。在Sklearn中可以利用train_test_split()函数来划分数据集。import numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn import datasetsfrom sklearn i...翻译 2019-04-24 15:43:01 · 233 阅读 · 0 评论 -
数据预处理
为什么需要数据预处理:1)在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,非常不利于算法模型的训练。2)数据预处理的目的是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。数据处理如何做1)标准化:去平均值 和方差缩放(Standardization, or mean remova...翻译 2019-04-24 16:24:31 · 304 阅读 · 0 评论 -
详解SVM系列(五):非线性支持向量机与核函数
对解线性分类问题,线性分类支持向量机是一种有效的方法。但是,有时分类问题是非线性的,这时可以使用非线性支持向量机。核技巧**非线性分类问题:**如上面左图所示,能用RnR^nRn中的一个超曲面将正负实例分开,则称这个问题为非线性可分问题。非线性问题不好求解,想办法转换成线性问题。通过进行一个非线性变换(线性变换无法改变数据集的线性可分与不可分性),将非线性问题转换为线性问题,通过解变换后...原创 2018-11-09 09:31:40 · 1571 阅读 · 0 评论 -
详解SVM系列(四):线性支持向量机与软间隔最大化
线性支持向量机线性可分问题的支持向量机学习方法,对线性不可分训练数据是不适用的,因为这时上述方法的不等式约束并不能都成立。举2个例子:如果没有混入异常点,导致不能线性可分,则数据可以按上面的实线来做超平面分离的。这种情况虽然不是不可分的,但是由于其中的一个蓝色点不满足线性可分支持向量机中的不等式约束,导致模型的泛化效果很差。正常情况下(没有那个蓝色异常点)分离超平面应该是红色的那条线...原创 2018-11-01 15:45:33 · 1136 阅读 · 0 评论 -
广义线性回归之逻辑斯谛回归( Logistic Regression)
广义线性模型逻辑斯谛回归概念可以认为是属于广义线性回归的范畴,但它是用来进行分类的。线性模型的表达式为:f(x)=w0+w1x1+w2x2+...+wnxnf(x)=w_0+w_1x_1+w_2x_2+...+w_nx_nf(x)=w0+w1x1+w2x2+...+wnxn——(1)其中,x1 xnx_1~x_nx1 xn就是n个特征,作为模型的输入...原创 2018-10-10 18:12:48 · 1204 阅读 · 0 评论 -
决策树面试知识点最全总结(三)
决策树面试知识点最全总结(三)决策树的剪枝一 为什么需要减枝: 无论是在ID3还是C4.5决策树的生成算法中,都是递归的生成决策树,直到不能继续下去为止。这样产生的决策树存在一些问题:过拟合即对训练数据的分类很准确,对未知的测试数据的分类却没有那么准确。过拟合的原因:在于学习时过多的考虑如何提高对训练数据的正确分类,从而构建出过于复杂的决策树。解决办法:考虑决策树的复杂度(复杂度如何...原创 2018-09-17 15:30:13 · 2594 阅读 · 0 评论 -
机器学习中的最优化方法(一) 无约束优化方法*
机器学习中的最优化方法(一) 无约束优化方法*掌握常用的优化方法对机器学习算法而言是必不可少的,本文只介绍无约束问题的优化,后续会介绍有约束的情况。主要介绍以下几个内容:1 优化概述2 无约束问题的优化方法3 梯度下降法4 牛顿法与拟牛顿法5 梯度下降法与牛顿法的区别与联系1.优化概述设函数f是定义在RnR^nRn上的实值函数,最优化问题的数学模型如下min f(x) (x∈D...原创 2018-09-18 15:38:28 · 1723 阅读 · 0 评论 -
应用数学与机器学习基础(二)
应用数学与机器学习基础(二)概率与信息论概率论是用于表示不确定性声明的数学框架。在人工智能领域,概率论主要有两种用途:首先,概率法则告诉我们AI系统如何推理,据此我们设计一些算法来计算由概率论导出的表达式; 其次,可以用概率和统计从理论上分析我们提出的AI系统的行为。1.为什么要使用概率?几乎所有活动都需要一些在不确定性存在的情况下进行推理的能力。 不确定性有3中可能的来源...原创 2018-09-13 11:42:04 · 259 阅读 · 0 评论 -
应用数学与机器学习基础(三)
应用数学与机器学习基础(三)数值计算: 机器学习算法通常需要大量的数值计算。通常是指通过迭代过程更新解的估计值来解决数学问题的算法,而不是通过解析过程推导出公式来提供正确解的方法。 常见的操作包括优化(找到最小化或最大化函数值得参数)和线性方程组求解 先介绍几个概念:导数、偏导数、方向导数和梯度 导数(Derivative):是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点...原创 2018-09-13 15:32:26 · 338 阅读 · 0 评论 -
决策树面试知识点最全总结(二)
决策树面试知识点最全总结(二)决策树的生成 ID3和C4.51 .ID3算法: ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征,递归的构建决策树。 具体的方法是:从根节点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为该结点的特征,由该特征的不同取值建立子节点;再对子节点递归的调用以上方法,构建决策树;直到所有特征的信息增益均很小或者没有特征可以选择为...原创 2018-09-14 14:11:22 · 1449 阅读 · 0 评论 -
机器学习算法——回归算法总结(一)
机器学习算法——回归算法总结(一)回归算法与分类算法都属于监督学习算法,不同的是,分类算法中标签是一些离散值,代表不同的分类,而回归算法中,标签是一些连续值,回归算法需要训练得到样本特征到这些连续标签之间的映射。1.线性回归2.局部加权回归3.岭回归4.Lasso回归5.CART回归树一 线性回归:线性回归是一类重要的回归问题,在线性回归中,目标值和特征之间存在线性相关的关系...原创 2018-09-19 17:14:02 · 14671 阅读 · 0 评论 -
机器学习面试知识点之决策树相关
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...原创 2018-09-11 11:35:48 · 491 阅读 · 0 评论 -
机器学习基础
机器学习基础机器学习的主要挑战是我们的算法必须能够在先前未观测到的新输入上表现良好,而不只是在训练集上表现良好。在先前未观测到的输入上表现良好的能力被称为泛化。误差分成 训练误差和测试误差(也叫泛化误差)先思考一个问题?在对训练集进行学习时,我们只能观测到训练集时,也只能得到训练误差,可是说白了我们真正关心的是测试误差(因为我们要用学习到的模型去判断新的数据),那么机器学习中为什么可以通...原创 2018-09-26 09:22:07 · 286 阅读 · 0 评论 -
决策树面试知识点最全总结(四)——CART回归树
CART回归树如果样本的标签和样本的特征存在非线性关系时,则普通的线性回归、岭回归和Lasso回归都不再使用。局部加权回归也可以对非线性数据进行较好的拟合,但是它是非参数模型,每次预测都要重新训练模型参数,计算量太大,耗费时间。CART树回归算法属于一种局部的回归算法,通过将全局的数据集划分成多份容易建模的数据集,这样在每个个数据集上进行局部的回归建模。CART回归树用平方误差最小化准则,...原创 2018-09-27 11:45:28 · 1928 阅读 · 0 评论 -
详解SVM系列(一):感知机
什么是感知机感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例分为正负两类的分离超平面,属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机模型定义:假设输入空间(特征空间)是χ...原创 2018-10-12 15:17:01 · 399 阅读 · 0 评论 -
集成学习与随机森林
集成学习1.首先了解下什么是集成学习?集成学习是一种新的学习策略,对于一个复杂的分类任务,通过训练多个分类器,利用这些分类器解决同一个问题。在集成学习中,通过学习多个分类器,通过结合这些分类器对于同一个样本的预测结果,给出最终的预测结果。2. 为什么需要集成学习?有时候面对一个复杂的分类问题,我们需要寻找到一个高效而又准确的算法来处理这个复杂的分类问题式比较困难的,不仅需要花费很多资源,...原创 2018-09-28 20:06:59 · 392 阅读 · 0 评论 -
集成学习之boosting,Adaboost、GBDT 和 xgboost(二)
AdaBoost 算法的训练误差分析AdaBoost最基本的性质是它能在学习过程中不断减少训练误差,即在训练数据集上的分类误差率。定理:AdaBoost的训练误差界:1N∑i=1NI(G(xi))\frac{1}{N}\displaystyle\sum_{i=1}^{N}I(G(x_i))N1i=1∑NI(G(xi))...原创 2018-10-08 09:13:12 · 190 阅读 · 0 评论 -
详解SVM系列(二):拉格朗日对偶性
拉格朗日函数有什么用?在约束最优化问题中,常常利用拉格朗日对偶性将原始问题转换为对偶问题,通过解对偶问题而得到原始问题的解。原始问题:假设f(x),Ci(x),hj(x)f(x),C_i(x),h_j(x)f(x),Ci(x),hj(x)是定义在RnR^nRn上的连续可微函数,考虑约束最优化问题:minf(x),x∈Rnminf(x),x∈R^nminf(x),x∈Rns.t.ci(...原创 2018-10-15 17:44:59 · 535 阅读 · 0 评论 -
应用数学与机器学习基础(一)
应用数学与机器学习基础(一)掌握机器学习需要一些基本的数学概念,本博客介绍了一些应用数学的基本概念。 为什么要掌握一些数学知识? 首先机器学习的算法一般都是要定义损失函数*的,学习策略是损失函数最小化*(有些可能是NP完全问题,采用启发式方法,如决策树),那么数学知识可以让我们定义拥有许多变量的函数,找到这些函数的最高点和最低点,并量化信念度。 机器学习算法的基本框架: 1)描述机器学...原创 2018-09-12 17:22:01 · 788 阅读 · 0 评论