机器学习
文章平均质量分 71
RYP_S
这个作者很懒,什么都没留下…
展开
-
ReLu激活函数
起源:传统激活函数、脑神经元激活频率研究、稀疏激活性传统Sigmoid系激活函数传统神经网络中最常用的两个激活函数,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)被视为神经网络的核心所在。从数学上来看,非线性的Sigmoid函数对中央区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上,有很好的效果。从神经科学上来看翻译 2017-08-29 11:02:02 · 1938 阅读 · 0 评论 -
统计算法分类
基于统计的分类算法是主流,主要包括以下几种分类模型:· 相似度模型(Rocchio、K-近邻)· 概率模型(贝叶斯)· 线性模型(LLSF、SVM) · 非线性模型(决策树、神经网络)· 组合模型。原创 2016-02-03 15:40:52 · 4830 阅读 · 0 评论 -
Rocchio 算法
该算法(Rocchio,1971)是20 世纪70 年代左右在Salton 的SMART 系统中引入并广泛流传的一种相关反馈算法。(1)Rocchio算法应用于文本分类基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有 “体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这个类别最具代表转载 2016-02-03 15:38:49 · 2226 阅读 · 0 评论 -
Generative Model 与 Discriminative Model(二)
原文:http://blog.csdn.net/zouxy09/article/details/8195017一、决策函数Y=f(X)或者条件概率分布P(Y|X) 监督学习的任务就是从数据中学习一个模型(也叫分类器),应用这一模型,对给定的输入X预测相应的输出Y。这个模型的一般形式为决策函数Y=f(X)或者条件概率分布P(Y|X)。 决策函数Y=f(X)转载 2016-01-15 15:39:48 · 523 阅读 · 0 评论 -
Generative Model 与 Discriminative Model(一)
原文:http://blog.sina.com.cn/s/blog_6742eecd0100iqcv.html【摘要】 - 生成模型(Generative Model) :无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型(Discriminative Model):有限样本==》判别函数 = 预测模型==》预测【简介】简单的说,假设o是观转载 2016-01-15 15:07:17 · 1053 阅读 · 0 评论 -
机器学习中的偏差和方差
数学解释偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。机器学习中的偏差和方差首先,假设你知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效果好不好要根据测试集的错原创 2015-12-23 15:05:26 · 10327 阅读 · 1 评论 -
利用机器学习进行恶意代码分类
原文链接:http://drops.wooyun.org/tips/8151最近在Kaggle上微软发起了一个恶意代码分类的比赛,并提供了超过500G的数据(解压后)。有意思的是,取得第一名的队伍三个人都不是搞安全出身的,所采用的方法与我们常见的方法存在很大不同,展现了机器学习在安全领域的巨大潜力。在仔细读完他们的代码和相关的论文后,我简单的进行了一些总结与大家分享。需要指出的转载 2015-12-08 23:49:02 · 6701 阅读 · 2 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料
《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写转载 2015-12-14 11:03:54 · 1881 阅读 · 3 评论 -
集成学习——Boosting和Bagging
link: http://m.blog.csdn.net/blog/fenghuangdesire/45013167集成学习基本思想:如果单个分类器表现的很好,那么为什么不适用多个分类器呢?通过集成学习可以提高整体的泛化能力,但是这种提高是有条件的:(1)分类器之间应该有差异性;(2)每个分类器的精度必须大于0.5;如果使用的分类器没有差异,那么集成起来的分类结果是没有变化转载 2015-11-14 17:54:34 · 4204 阅读 · 0 评论 -
机器学习复习——各类算法优缺点总结
算法优点缺点决策树(Decision Trees)1. 易于理解和解释;2. 数据的准备简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。3. 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。4. 决策树是一个白盒模型.如果给定一个观察的模型,那么根据所产生的决策转载 2015-11-11 18:41:33 · 1823 阅读 · 0 评论 -
机器学习复习——GBDT
GDBT:GBDT(Gradient Boosting Decision Tree) 又叫 MART(MultipleAdditive Regression Tree),它是一种迭代的决策树算法。该算法由多棵决策树组成,所有树的输出结果累加起来就是最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学原创 2015-11-11 16:12:53 · 452 阅读 · 0 评论 -
机器学习复习——Regularization
Regularization:作用是:1. 数值上更容易求解;2. 特征数目太大时更稳定;3. 控制模型的复杂度,光滑性。复杂性越小且越光滑的目标函数泛化能力越强。而加入规则项能使目标函数复杂度减小,且更光滑。4. 减小参数空间;参数空间越小,复杂度越低。5. 系数越小,模型越简单,而模型越简单则泛化能力越强(Ng宏观上给出的解释)。6. 可以看出是权值的高斯先验。原创 2015-11-11 16:14:25 · 494 阅读 · 0 评论 -
机器学习复习——FP Growth
FP Growth:FP Growth是一种比Apriori更高效的频繁项挖掘方法,它只需要扫描项目表2次。其中第1次扫描获得当个项目的频率,去掉不符合支持度要求的项,并对剩下的项排序。第2遍扫描是建立一颗FP-Tree(frequent-patten tree)。接下来的工作就是在FP-Tree上进行挖掘。比如说有下表:它所对应的FP_Tree如下:然后从原创 2015-11-11 16:26:57 · 684 阅读 · 0 评论 -
机器学习复习——推荐系统
推荐系统:推荐系统的实现主要分为两个方面:基于内容的实现和协同滤波的实现。一、基于内容的实现:不同人对不同电影的评分这个例子,可以看做是一个普通的回归问题,因此每部电影都需要提前提取出一个特征向量(即x值),然后针对每个用户建模,即每个用户打的分值作为y值,利用这些已有的分值y和电影特征值x就可以训练回归模型了(最常见的就是线性回归)。这样就可以预测那些原创 2015-11-05 14:48:10 · 525 阅读 · 0 评论 -
机器学习复习——聚类
聚类:根据聚类思想划分:1.基于划分的聚类:K-means, k-medoids(每一个类别中找一个样本点来代表),CLARANS.k-means是使下面的表达式值最小:k-means算法的优点:(1)k-means算法是解决聚类问题的一种经典算法,算法简单、快速。(2)对处理大数据集,该算法是相对可伸原创 2015-11-05 14:38:04 · 455 阅读 · 0 评论 -
机器学习复习——KNN
KNN算法:KNN即最近邻算法,其主要过程为:1.计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);2.对上面所有的距离值进行排序;3.选前k个最小距离的样本;4.根据这k个样本的标签进行投票,得到最后的分类类别; 如何选择一个最佳的K值,这取决于数据。一般情况下,在分类时较大原创 2015-11-05 14:02:27 · 568 阅读 · 0 评论 -
一页纸说清楚“什么是深度学习?”
转自:http://blog.sciencenet.cn/blog-4099-785174.html深度学习:像人脑一样深层次地思考从上一篇我们可以看出,个性化推荐系统确实很会“察言观色”,针对不同的用户,主动推送不同的3D打印内容。但如果你认为它真正有了“人工智能”,那你就错了。其实,这些推荐系统背后的运行原理主要基于概率统计、矩阵或图模型,计算机对这些数值运算确实很擅长,但由于转载 2016-03-29 16:17:20 · 1086 阅读 · 0 评论 -
机器学习评价指标大汇总
转自:http://www.zhaokv.com/2016/03/ml-metric.html在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。一、分类1. 精确率与召回率精确率与召回率多用于二分类问题。精确率(Precision)指的是模型判为正的所有样本中有多少是真正的正样本;召回率(Recall)指的是所有正样本转载 2016-03-29 17:05:08 · 2202 阅读 · 0 评论 -
正则化与数据先验分布的关系
过拟合的原因:使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生bias很低,但variance很高的情形.解决过拟合最常用的方法就是regularization, 常用的有:L1正则, L2正则等.L1正则会使得参数稀疏化, L2正则可以起到平滑的作用, 从贝叶斯理论的角度审视下正则化.从贝叶斯的角度来看, 正则化等价于对模型参数引入先验分布.(先验概率可理解为统计转载 2017-08-22 14:45:26 · 2392 阅读 · 0 评论 -
SVM学习(六):将SVM用于多类分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。 还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并转载 2017-06-05 18:39:51 · 657 阅读 · 0 评论 -
SVM学习(五):松弛变量与惩罚因子
1.松弛变量 现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的:转载 2017-06-05 17:55:21 · 1412 阅读 · 0 评论 -
SVM学习(四):为何需要核函数
生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢? 有!其思想转载 2017-06-05 17:54:02 · 492 阅读 · 0 评论 -
SVM学习(三):线性分类器的求解
1.问题的描述 上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义:间隔:δ=y(wx+b)=|g(x)|几何间隔:可以看出δ=||w||δ几何。转载 2017-06-05 17:28:29 · 433 阅读 · 0 评论 -
SVM学习(二):线性分类器
1.线性分类器概念 线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念。用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示: C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间的直线就是一个分类函数,它可以将两类样本完全转载 2017-06-05 16:38:20 · 653 阅读 · 0 评论 -
SVM学习(一):SVM概念
SVM算法学习之旅,首先介绍一下SVM概念。 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型转载 2017-06-05 16:27:37 · 465 阅读 · 0 评论 -
Caffe学习系列(12):训练和测试自己的图片
原文:http://www.cnblogs.com/denny402/p/5083300.html学习caffe的目的,不是简单的做几个练习,最终还是要用到自己的实际项目或科研中。因此,本文介绍一下,从自己的原始图片到lmdb数据,再到训练和测试模型的整个流程。一、准备数据有条件的同学,可以去imagenet的官网http://www.image-net.org/download-im转载 2016-07-07 15:17:35 · 974 阅读 · 0 评论 -
CNN基础及开发环境搭建(综合参考)
目前,深度学习在解决图像分类,语音识别等问题上获得了已知的最优结果,该系列算法越来越受到学术界和工业界的重视。何为深度学习?一个直观的解释是如果一个机器学习算法在建模的过程中使用了多层的自动特征表示,则该机器学习算法可以称之为深度学习算法,也就是该机器学习算法可以自动地计算特征的特征表示。而卷积神经网络(以下简称为CNN)则是深度学习中最基础且有效的算法,CNN虽然最早由KunihikoF转载 2016-06-17 17:26:08 · 1861 阅读 · 0 评论 -
从单层感知机到LSTM
单层感知机拥有输入层、隐含层、输出层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。只能处理很简单的函数。多层感知机(现在叫神经网络NN)特点:包含多个隐含层; 使用sigmoid和tanh等连续函数模拟神经元对激励的响应; 使用反向传播BP算法来训练; 摆脱了早起离散传输函数的束缚。图1上下层神经元全部相连的神经网络—原创 2016-06-02 17:18:15 · 3027 阅读 · 0 评论 -
18个最热深度学习Github项目逐一介绍
链接:http://blog.csdn.net/huixingshao/article/details/44559833摘要: 前几天meta-guide.com列出了100个深度学习的源代码项目,但其中大部分都不活跃。这里我们精选出18个最活跃的项目,每个都制作了信息卡片,一目了然,方便比较和转贴。 ...活跃的项目,每个都制作了信息卡片,一目了然,方便比较和转贴。 ...转载 2016-05-09 11:44:28 · 1563 阅读 · 0 评论 -
各大机器学习包汇总(python版,持续更新)
随着机器学习的逐日升温,各种相关开源包也是层出不群,面对如此多种类的工具包,该如何选择,有的甚至还知之甚少或者不知呢,本文简单汇总了一下当下使用比较多的python版本机器学习工具包,供大家参看,还很不全不详尽,会持续更新,也欢迎大家补充,多谢多谢!~~~scikit-learn: 基于python的机器学习模块,基于BSD开源许可证。这个项目最早由DavidCournapeau 在2原创 2016-04-13 16:54:06 · 9052 阅读 · 0 评论 -
数据科学的完整学习路径—Python版
原文 http://dataunion.org/?p=9805译者: Allen从Python菜鸟到Python Kaggler的旅程(译注: Kaggle 是一个数据建模和数据分析竞赛平台)假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你需要转载 2016-04-13 14:45:59 · 572 阅读 · 0 评论 -
基于Python的卷积神经网络和特征提取
摘要:本文展示了如何基于nolearn使用一些卷积层和池化层来建立一个简单的ConvNet体系结构,以及如何使用ConvNet去训练一个特征提取器,然后在使用如SVM、Logistic回归等不同的模型之前使用它来进行特征提取。卷积神经网络(ConvNets)是受生物启发的MLPs(多层感知器),它们有着不同类别的层,并且每层的工作方式与普通的MLP层也有所差异。如果你对ConvNets转载 2016-04-12 18:05:25 · 4049 阅读 · 0 评论 -
三层神经网络简单实现(Python版)
#!/usr/bin/python#--coding=utf-8--import numpy as npdef nonlin(x,deriv = False): if(deriv == True): return x*(1-x) return 1/(1+np.exp(-x))X = np.array([[0,0,1],原创 2016-03-30 14:48:44 · 4745 阅读 · 0 评论 -
机器学习复习——EM
EM算法:有时候因为样本的产生和隐含变量有关(隐含变量是不能观察的),而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,这时可以采用EM算法来求模型的参数的(对应模型参数个数可能有多个),EM算法一般分为2步:E步:选取一组参数,求出在该参数下隐含变量的条件概率值;M步:结合E步求出的隐含变量条件概率,求出似然函数下界原创 2015-11-05 17:47:55 · 362 阅读 · 0 评论 -
机器学习复习——决策树
决策树:决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。信息熵的计算公式如下:其中的n代表有n个分类类别(比如假设是2类问题,那么n=2)。分别计算这2类样本在总样本中出现的概率p1和p2,这样就可以计算出未选中属性分枝前的信息熵。现在选中一个属性xi用来进行分枝,此时分枝规则是:如果xi=vx的话,原创 2015-11-04 18:17:03 · 396 阅读 · 0 评论 -
RedHat上使用matplotlib进行科学画图
Matplotlib是基于python的开源科学测绘包,基于python软件基金会许可证发布。大量的文档和例子、集成了Python和Numpy科学计算包、以及自动化能力,是作为Linux环境中进行科学画图的可靠选择的几个原因。本文将提供几个用matplotlib画图的例子。特性•支持众多的图表类型,如:bar,box,contour,histogram,scatter,line p原创 2015-06-16 12:01:12 · 726 阅读 · 0 评论 -
机器学习开源工具及licence
以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statement。我通过浏览各开源工具网站,对其licence agreement进行了一下了解,在这里简单贴上其遵循的licence,希望有用。如果实际商用或者其他用途,还须仔细到个网站查询或联系developers。由于版本的升级,相应的licence也会有一定的改动,需要注意。如转载 2015-04-07 18:01:53 · 4183 阅读 · 0 评论 -
最大熵开源——openNLP MaxEnt
opennlp.maxent package是一个比较成熟的Java package,用来训练和使用最大熵模型。本文描述最大熵和使用opennlp.maxent package的一些相关细节。更新内容:http://sourceforge.net/projects/maxent/(Sourceforge page for Maxent )Download:http://sourcefo原创 2015-04-10 09:45:01 · 3372 阅读 · 0 评论 -
随机场的一点理解
最近正在研究随机场,研究还不够透彻,只是了解了大概,做如下笔记用以日后内容扩充。1. 马尔可夫随机场 马尔可夫:N+1时刻的分布特性只与N时刻有关,即1-gram的。 随机场二要素:位置、时间(举个通俗点的例子就是:哪块地里种什么庄稼) 马尔可夫随机场:任一块地里种的庄稼的种类仅与它邻近的地里种的庄稼种类有关系,则这些地里种的庄稼的集合就是一马尔可夫随原创 2013-07-17 17:45:44 · 2163 阅读 · 0 评论 -
自然语言处理中的一些概念
一、概念1. 语言学方面 语法学:研究句子结构成分之间的相互关系和组成句子序列的规则。 语义学:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。 语用学:研究不同上下文中语句的应用,以及上下文对语句理解所产生的影响。2. 信息论方面 相对熵(简称KL距离):衡量两个相对随机分布的差距。 交原创 2013-07-23 22:34:24 · 1915 阅读 · 0 评论