人工智能
文章平均质量分 74
lishuandao
这个作者很懒,什么都没留下…
展开
-
梯度下降优化算法综述
转载:梯度下降优化算法综述该文翻译自An overview of gradient descent optimization algorithms。 总所周知,梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。但是,它们就转载 2017-02-17 15:13:50 · 739 阅读 · 0 评论 -
Alpha-Beta搜索 + 启发式评价
在博弈游戏中,可以将游戏过程,用一棵博弈树进行存储,树上每个节点表示游戏状态,树枝表示动作。为了赢得游戏,需要有一定的前瞻性(即搜索深度要尽可能深一些),但是随着搜索深度的加深,需要考虑的状态数目成指数级别增长,所以为了提高效率,这里对搜索算法进行了剪枝,将一些明显不会采取的招法忽略,以此来减少状态数目,提高算法效率。博弈游戏,采取的搜索算法是MaxMinSearch,剪枝策略采取的是Alph原创 2016-09-01 16:15:08 · 1949 阅读 · 0 评论 -
机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用R转载 2016-09-16 13:21:07 · 350 阅读 · 0 评论 -
随机森林-RandomForest
http://www.36dsj.com/archives/32820简介近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果。在各种各样的问题中,随机森林一次又一次地展示出令人难以置信的强大,而与此同时它又是如此的方便实用。需要大家注意的是,在上文中转载 2016-09-16 13:12:14 · 3046 阅读 · 0 评论 -
决策树-信息增益,信息增益率,Gini
原文出处:信息增益,信息增益率,Gini话说今天《机器学习》上课被很深地打击了,标名为“数据挖掘”专业的我居然连个信息增益的例子都没能算正确。唉,自看书以来,这个地方就一直没有去推算过,每每看到决策树时看完Entropy就直接跳过后面增益计算了。因而,总想找个时间再回过来好好看一下,这不,被逼上了呢。神奇的墨菲定律呢:你担心它发生的,它就一定会发生。回正题了,这三个指标均是决策原创 2016-09-14 19:53:17 · 18851 阅读 · 0 评论 -
决策树-剪枝
原文出处:分类回归树CART(上)剪枝当分类回归树划分得太细时,会对噪声数据产生过拟合作用。因此我们要通过剪枝来解决。剪枝又分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些节点可以剪掉,于是干脆不对这些节点进行分裂,在N皇后问题和背包问题中用的都是前剪枝,上面的χ2方法也可以认为是一种前剪枝;后剪枝是指构造出完整的决策树之后再来考查哪些子树可以剪掉。在分类回归树中可转载 2016-09-14 17:19:44 · 893 阅读 · 0 评论 -
决策树-CART算法
原文出自:ACdreamers-决策树之CART算法在之前介绍过决策树的ID3算法实现,今天主要来介绍决策树的另一种实现,即CART算法。 Contents 1. CART算法的认识 2. CART算法的原理 3. CART算法的实现 1. CART算法的认识 Clas转载 2016-09-14 16:53:49 · 1085 阅读 · 0 评论 -
决策树-信息论
熵越高,则混合的数据类型越多,信息量越大。原创 2016-09-14 15:33:57 · 663 阅读 · 0 评论 -
机器学习中防止过拟合的处理方法
原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49429629防止过拟合的处理方法过拟合 我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前转载 2016-09-13 20:12:07 · 1743 阅读 · 0 评论 -
AutoRegressive Integrated Moving Average(差分自回归移动平均模型)
ARIMA: AutoRegressive Integrated Moving Average(差分自回归移动平均模型)ARIMA里面的I指Integrated(差分)。 ARIMA(p,d,q)就表示p阶AR,d次差分,q阶MA。 为什么要进行差分呢? ARIMA的前提是数据是stationary的,也就是说统计特性(mean,variance,correlation等)不会随着时原创 2016-09-09 21:08:29 · 5914 阅读 · 0 评论 -
AlphaGo分析
AlphaGo总体上包含离线学习(图的上半部分)和在线对弈(图的下半部分)两个过程。离线学习过程分为三个训练阶段。第一阶段:利用3万多幅专业棋手对弈的棋谱来训练两个网络。一个是基于全局特征和深度卷积网络(CNN)训练出来的策略网络(PolicyNetwork)。其主要作用是给定当前盘面状态作为输入,输出下一步棋在棋盘其他空地上的落子概率。另一个是利用局部特征和线性模型训练出来的快速走棋策略原创 2016-09-03 17:20:54 · 3365 阅读 · 1 评论 -
概率统计基础-置信区间
置信区间(Confidence Interval)95%置信区间(Confidence Interval,CI):当给出某个估计值的95%置信区间为【a,b】时,可以理解为我们有95%的信心(Confidence)可以说样本的平均值介于a到b之间,而发生错误的概率为5%。 有时也会说90%,99%的置信区间,具体含义可参考95%置信区间。 置信区间具体计算方式为:转载 2016-09-06 16:49:45 · 10255 阅读 · 0 评论 -
交叉熵
原文链接:点击打开链接交叉熵(Cross-Entropy)交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。1.什么是信息量?假设X是一个离散型随机变量,其取值集合为X,概率分布函数为p(x)=Pr(X=x),x∈X,我们定义事件X=x0的信息量为: I(x0)=−log(p(x0)),可以理解为,一个事件发生的概率越大,则它所携转载 2016-12-20 16:49:58 · 1722 阅读 · 0 评论 -
径向基网络(RBF network)之BP监督训练
原文作者:zouxy09@qq.com原文出处:http://blog.csdn.net/zouxy09 之前看了流行学习的时候,感觉它很神奇,可以将一个4096维的人脸图像降到3维。然后又看到了可以用径向基网络来将这3维的图像重构到4096维。看到效果的时候,我和小伙伴们都惊呆了(呵呵,原谅我的孤陋寡闻)。见下图,第1和3行是原图像,维度是64x64=4096维,第2和第转载 2017-01-03 21:01:37 · 998 阅读 · 0 评论 -
神经网络隐含层的选取
1、神经网络算法隐含层的选取1.1 构造法首先运用三种确定隐含层层数的方法得到三个隐含层层数,找到最小值和最大值,然后从最小值开始逐个验证模型预测误差,直到达到最大值。最后选取模型误差最小的那个隐含层层数。该方法适用于双隐含层网络。1.2 删除法单隐含层网络非线性映射能力较弱,相同问题,为达到预定映射关系,隐层节点要多一些,以增加网络的可调参数,故适合运用删除法。1.3黄金分割转载 2016-09-29 00:22:58 · 9339 阅读 · 4 评论 -
什么是超参数
什么是超参数当参数时随机变量时,该参数分布中的参数就是超参数,简单的说就是参数的参数,感觉一般在贝叶斯方法中出现所谓超参数,就是机器学习模型里面的框架参数,比如聚类方法里面类的个数,或者话题模型里面话题的个数等等,都称为超参数。它们跟训练过程中学习的参数(权重)是不一样的,通常是手工设定,不断试错调整,或者对一系列穷举出来的参数组合一通枚举(叫做网格搜索)。深度学习和神经网络模型,转载 2016-09-29 00:21:01 · 1385 阅读 · 0 评论 -
深度强化学习:基于像素的乒乓游戏
转载出处:深度强化学习:基于像素的乒乓游戏英文原文:Deep Reinforcement Learning: Pong from Pixels作者:Andrej Karpathy (Stanford University) 译者:郭江这是一篇早就应该写的关于强化学习的文章。强化学习现在很火!你可能已经注意到计算机现在可以自动(从游戏画面的像素中)学会玩雅达利(Atari)游戏[1转载 2016-09-29 00:16:43 · 6364 阅读 · 0 评论 -
大白话解析模拟退火算法
转载出处:大白话解析模拟退火算法优化算法入门系列文章目录(更新中): 1. 模拟退火算法 2. 遗传算法一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。转载 2016-10-11 19:53:19 · 579 阅读 · 0 评论 -
数理统计基础-相关系数
相关函数介绍:相关系数(Karl Pearson系数)由卡尔*皮尔逊提出,广泛用于衡量两个变量线性相关程度的系数,它的平方称为判定系数。此外把反应两变量曲线相关程度的系数称为非线性相关系数。相关系数是测定变量之间关系密切程度的量。对两个变量之间的线性相关程度的度量称为单相关系数。通常以r表示样本的相关系数。计算该相关系数时,假定两个变量之间是线性关系,而且两个变量都是随机变量。此外,样本数原创 2016-09-06 22:18:25 · 10993 阅读 · 0 评论 -
朴素贝叶斯-文本分类
原创 2016-09-07 15:41:05 · 382 阅读 · 0 评论 -
win64环境下sklearn的配置
Python环境配置所需工具下载地址:PyPI: Python Package Index需要下载的文件:scipy-0.15.1-cp27-none-win_amd64scikit_learn-0.17-cp27-none-win_amd64前提安装pip工具(参考:安装easy_install和pip)然后,安装scipy:安装sciki原创 2016-09-19 19:17:17 · 1006 阅读 · 0 评论 -
Time Series Prediction:时间序列预测
题目:Time Series: Predict the Web Traffic推荐的几种方法:Resources原创 2016-09-08 19:48:12 · 6207 阅读 · 0 评论 -
RBF神经网络与BP神经网络的比较
转自:dadaadaoRBF神经网络与BP神经网络都是非线性多层前向网络,它们都是通用逼近器。对于任一个BP神经网络,总存在一个RBF神经网络可以代替它,反之亦然。但是这两个网络也存在着很多不同点,这里从网络结构、训练算法、网络资源的利用及逼近性能等方面对RBF神经网络和BP神经网络进行比较研究。 (1) 从网络结构上看。 BP神经网络实行权连接,而RBF神经网络输入层到转载 2016-06-30 16:55:50 · 3180 阅读 · 0 评论 -
遗传算法
遗传算法(Genetic Algorithm)又叫基因进化算法,或进化算法。属于启发式搜索算法一种,这个算法比较有趣,并且弄明白后很简单,写个100-200行代码就可以实现。在某些场合下简单有效。本文就花一些篇幅,尽量白话方式讲解一下。 首先说一下问题。在我们学校数据结构这门功课的时候,时常会有一些比较经典的问题(而且比较复杂问题)作为学习素材,如八皇后,背包问题,染色问题等等转载 2016-03-10 16:51:23 · 600 阅读 · 0 评论 -
拟牛顿法
转自:ACdreamer今天,我来讲一种在机器学习中常用到的优化算法,叫做BFGS算法。BFGS算法被认为是数值效果最好的拟牛顿法,并且具有全局收敛性和超线性收敛速度。那么接下来将会详细讲解。 Contents 1. 什么是拟牛顿法 2. 拟牛顿法原理 3. DFP算法原理 4. BFGS算法原理 5. BFGS算法的实转载 2016-03-31 16:10:35 · 8177 阅读 · 0 评论 -
EM及高斯混合模型
转自:EM及高斯混合模型本文就高斯混合模型(GMM,Gaussian Mixture Model)参数如何确立这个问题,详细讲解期望最大化(EM,Expectation Maximization)算法的实施过程。单高斯分布模型GSM多维变量X服从高斯分布时,它的概率密度函数PDF为:x是维度为d的列向量,u是模型期望,Σ是模型方差。在实际应用中u通常用样本均值来代替,Σ通常转载 2016-03-31 11:36:57 · 529 阅读 · 0 评论 -
混合高斯模型(Mixtures of Gaussians)和EM算法
转自:混合高斯模型(Mixtures of Gaussians)和EM算法这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,转载 2016-03-31 11:35:03 · 576 阅读 · 0 评论 -
Levenberg-Marquardt(LM算法)
转自: 翠翠的博客什么是最优化,可分为几大类?答:Levenberg-Marquardt算法是最优化算法中的一种。最优化是寻找使得函数值最小的参数向量。它的应用领域非常广泛,如:经济学、管理优化、网络分析、最优设计、机械或电子设计等等。根据求导数的方法,可分为2大类。第一类,若f具有解析函数形式,知道x后求导数速度快。第二类,使用数值差分来求导数。根据 使用模型不同转载 2016-03-30 14:18:21 · 72312 阅读 · 2 评论 -
梯度下降法,最小二乘法求线性回归
来自知乎内容:最小二乘法和梯度下降法有哪些区别?非线性最小二乘法:百度百科非线性最小二乘的求解样例:转自:LongShaoAn问题:已知数据X、Y, X=[ -0.46,-0.0755,-0.0227,-0.63,-0.435,-0.4] Y=[0.595,0.556,0.44,0.53,0.634,0.551转载 2016-03-29 21:06:03 · 1149 阅读 · 0 评论 -
机器学习经典算法之-----最小二乘法
原作者:iamccme一.背景 5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》,想到能见到传说中的项亮大神,特地拿了本《推荐系统实践》求签名。讲座开始,主讲人先问了下哪些同学有机器学习的背景,我恬不知耻的毅然举手,真是惭愧。后来主讲人在讲座中提到了最小二乘法,说这个是机器学习最基础的算法。神马,最基础,我咋不知道呢! 看来以后还是要对自己有清晰认识。转载 2016-03-29 20:16:42 · 1038 阅读 · 0 评论 -
人工智能和机器学习方面的开源项目
本文简要介绍了10款人工智能和机器学习领域方面的开源项目。 GraphLabGraphLab是一种新的面向机器学习的并行框架。GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐转载 2016-03-03 18:27:23 · 463 阅读 · 0 评论 -
蚁群算法
参考两篇文章:http://www.nocow.cn/index.php/%E8%9A%81%E7%BE%A4%E4%BC%98%E5%8C%96%E7%AE%97%E6%B3%95http://www.cnblogs.com/biaoyu/archive/2012/09/26/2704456.html转载 2016-03-10 19:20:00 · 359 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
转载:xianlingmao转载 2016-04-06 22:24:11 · 877 阅读 · 0 评论 -
随机森林
出处:ACdreamers前面介绍过决策树的三种实现:ID3算法,C4.5算法和CART算法。虽然这些决策树有很多优良的性质,比如训练时间复杂度较低,模型容易展示等等,但是同时单决策树有一些不好的地方,比如容易over-fitting,虽然剪枝可以减少这种现象的发生,但是还是不够的。为了减少决策树的不足,近年来又提出了许多模型组和+决策树的算法,这些算法都是生成转载 2016-05-21 10:46:00 · 577 阅读 · 0 评论 -
PCA的数学原理
转载出处:作者 张洋PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。转载 2016-05-09 20:33:48 · 446 阅读 · 0 评论 -
SVM之SMO优化算法
转载出处:JerryLead11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A F转载 2016-05-09 13:09:09 · 2186 阅读 · 0 评论 -
SVM支持向量机-拉格朗日,对偶算法的初解
转载:原文链接标签:svm支持向量机 拉格朗日 对偶算法 许多地方得SVM讲得都很晦涩,不容易理解,最近看到一篇不错的博文写得很好,同时加上自己的理解,重新梳理一下知识要点http://blog.csdn.net/zouxy09/article/details/17291543一、引入SVM是个分类器。我们知道,分类的目的转载 2016-05-09 13:07:50 · 832 阅读 · 0 评论 -
协方差矩阵计算
一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],转载 2016-04-29 20:25:24 · 2158 阅读 · 0 评论 -
启发式算法个人理解
什么是启发式算法转自:p://blog.csdn.net/aris_zzy/archive/2006/05/27/757156.aspx引言:解决实际的问题,要建模型,在求解。求解要选择算法,只有我们对各种算法的优缺点都很熟悉后才能根据实际问题选出有效的算法。但是对各种算法都了如指掌是不现实的,但多知道一些,会使你的选择集更大,找出最好算法的概率越大。现在研一,要开题了些点文献综述,愿转载 2016-04-09 17:19:20 · 17437 阅读 · 2 评论 -
矩阵求导
原文地址:机器学习中常用的矩阵求导公式作者:MachineLearner矩阵求导好像读书的时候都没学过,因为讲矩阵的课程上不讲求导,讲求导的课又不提矩阵。如果从事机器学习方面的工作,那就一定会遇到矩阵求导的东西。维基百科上:http://en.wikipedia.org/wiki/Matrix_calculus ,根据Y与X的不同类型(实值,向量,矩阵),给出了具体的求导公式,以及一堆相关转载 2016-04-09 15:00:39 · 514 阅读 · 0 评论