Machine Learning
universe_ant
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯(naive Bayes)
朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。假设我们现在有一个数据集,它由两类数据组成,数据分布如下图所示:假设有位读者找到了描述图中两类数据的统计参数。我们现在用p1(x, y)表示数据点(x, y)属于类别1(图中用圆点表示的类别)的概率,用p2(x, y)表示数据点(x, y)属于类别2(图中用三角形表示的类别)的概率,那么对于一个原创 2016-09-23 20:11:18 · 471 阅读 · 0 评论 -
线性回归、梯度下降以及运用TensorFlow进行简单实现
参考:机器学习入门:线性回归及梯度下降TensorFlow线性回归Demo线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(cost function最小)即可。单变量线性回归:a) 因为是线性回归,所以学习到的函数为线性函数,即原创 2016-10-06 15:28:00 · 12283 阅读 · 0 评论 -
Logistic回归、softmax回归以及tensorflow实现MNIST识别
一、Logistic回归Logistic回归为概率型非线性回归模型,是研究二分类结果与一些影响因素之间关系的一种多变量分析方法。通常是用来研究某些因素条件下某个结果是否发生。在讲解Logistic回归理论之前,我们先从LR分类器说起。LR分类器,即Logistic Regression Classifier。在分类情形下,经过学习后的LR分类器是一组权值,当测试样本的数据输入时,这组权值与原创 2016-10-06 23:48:32 · 5713 阅读 · 0 评论 -
循环神经网络(RNN,Recurrent Neural Networks)介绍
循环神经网络(RNN,Recurrent Neural Networks)介绍循环神经网络(Recurrent Neural Networks,RNNs)已经在众多自然语言处理(Natural Language Processing,NLP)中取得了巨大成功以及广泛应用。不同于传统的FNNs(Feed-forward Neural Networks,前向反馈神经网络),RNNs引入转载 2016-10-20 17:27:23 · 2197 阅读 · 0 评论 -
集成学习
集成学习集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。上图显示出集成学习的一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将原创 2017-02-27 17:12:44 · 3062 阅读 · 0 评论 -
信息检索的评价指标(Precision、Recall、F-score、MAP、ROC、AUC)
一:Precision、Recall、F-score信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate——注意统计学习方法中precision称为精确率,而准确率accuracy是分类正确的样本除以总样本的个数),召回率也叫查全率,准确率也叫查准率,概念公式:召回率(Recall) = 系统检索到的相关文件 / 系统所有相转载 2017-04-11 20:10:19 · 5750 阅读 · 0 评论 -
数据挖掘概述
在数据挖掘应用领域里存在四种完全不同的学习方式。分类学习(classification learning)是用一个已分类的样本集来表示学习方案,并希望从这个样本集中学习对未来样本进行分类的方法。关联学习(association learning)寻找任何特性之间的关联,不仅仅是为了预测一个特定的类值。聚类(clustering)寻找能够组合在一起的样本,并依此分组。数值预测(numeric p原创 2016-10-04 15:46:48 · 648 阅读 · 0 评论 -
Rosenblatt感知器
1、引言感知器是用于线性可分模式(即模式分别位于超平面所分隔开的两边)分类的最简单的神经网络模型。基本上它由一个具有可调突触权值和偏置的神经元组成。用来调整这个神经网络中自由参数的算法最早出现在Rosenblatt提出的用于其脑感知模型的一个学习过程中。事实上,Rosenblatt证明了当用来训练感知器的模式(向量)取自两个线性可分的类时,感知器算法是收敛的,并且决策面是位于两类之间的超平原创 2016-10-05 12:51:52 · 3561 阅读 · 0 评论 -
k-近邻算法(kNN)
k-近邻算法工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相原创 2016-09-20 20:28:50 · 431 阅读 · 0 评论 -
Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。接下来介绍这个二值型输出分类器的数学原理。Logistic回归的一般过程:原创 2016-09-24 12:28:54 · 1379 阅读 · 0 评论 -
决策树(Decision Trees)
你是否玩过二十个问题的游戏,游戏的规则很简单:参与游戏的一方在脑海里想某个事物,其他参与者向他提问题,只允许提20个问题,问题的答案也只能用对或错回答。问问题的人通过推断分解,逐步缩小带猜测事物的范围。决策树的工作原理与20个问题类似,用户输入一系列数据,然后给出游戏的答案。下图所示的流程图就是一个决策树,正方形代表判断模块(decision block),椭圆形代表终止模块(terminat原创 2016-09-22 11:02:23 · 956 阅读 · 0 评论 -
反向传播BP算法
一、网络结构经典的BP网络,其具体结构如下:请特别注意上面这个图的一些符号说明,如下:二、学习算法1、信号的前向传递过程请特别注意上述公式中的下标,这里,权值矩阵包含了神经元节点本身的偏置,所以权值矩阵多了一列。2、误差反向传导过程三、小结信号的前向传递和误差反向传递过程都可以用递归公式描述。其实,就几个公式而转载 2016-10-13 17:51:40 · 498 阅读 · 0 评论 -
卷积神经网络
深度神经网络已经在语音识别、图像识别等领域取得前所未有的成功。这一篇,讲一讲经典的卷积神经网络。我不打算详细描述卷积神经网络的生物学运行机理,因为网络上有太多的教程可以参考。这里,主要描述其数学上的计算过程,也就是如何自己编程去实现的问题。一、概述回想一下BP神经网络。BP网络每一层节点是一个线性的一维排列状态,层与层的网络节点之间是全连接的。这样设想一下,如果BP网络中层与层之间的节点连转载 2016-10-13 23:16:28 · 694 阅读 · 0 评论 -
深度解析CNN
1、概述卷积神经网络是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元间的连接是非全连接的,另一方面同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度(对于很难学习的深层结构来说,这是非常重要的),减少了权值的数量。回想一下BP神经网络。BP网络每一层节点是一个线性的一维排列状态,转载 2016-10-14 16:08:19 · 1158 阅读 · 0 评论 -
文字识别系统LeNet-5
在经典的模式识别中,一般是事先提取特征。提取诸多特征后,要对特征进行相关性分析,找到最能代表字符的特征,去掉对分类无关和自相关的特征。然而,这些特征的提取太过依赖人的经验和主观意识,提取到的特征的不同对分类性能影响很大,甚至提取的特征的顺序也会影响最后的分类性能。同时,图像预处理的好坏也会影响到提取的特征。那么,如何把特征提取这一过程作为一个自适应、自学习的过程,通过机器学习找到分类性能最优的特征转载 2016-10-15 09:41:51 · 2819 阅读 · 0 评论 -
TF-IDF原理
什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)。是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是,一原创 2017-07-08 11:29:46 · 724 阅读 · 0 评论