MachineLearning
文章平均质量分 80
学战到底
这个作者很懒,什么都没留下…
展开
-
Kmeans聚类-K值以及簇中心点的选取
转自:Kmeans聚类-K值以及簇中心点的选取,保存在此,学习本文主要基于Anand Rajaraman和Jeffrey David Ullman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。 KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之转载 2016-07-10 15:59:00 · 39898 阅读 · 0 评论 -
Mahout源码目录说明
mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是转载 2016-08-11 17:07:57 · 892 阅读 · 0 评论 -
自组织神经网络介绍:自组织特征映射SOM(Self-organizing feature Map)
http://blog.csdn.net/xbinworld/article/details/50818803本文详细介绍一下自组织神经网络概念和原理,并重点介绍一下自组织特征映射SOM网络。SOM和现在流行的ANN(MLP)模型在结构上类似,都由非常简单的神经元结构组成,但是SOM是一类“无监督学习”模型,一般的用法是将高维的input数据在低维的空间表示[1],因此SOM天然是一种转载 2016-09-04 23:17:38 · 1215 阅读 · 0 评论 -
基于BP神经网络的数据分类
转自:基于BP神经网络的数据分类,保存在此以学习。 BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不转载 2016-10-27 20:19:37 · 15404 阅读 · 6 评论 -
BP神经网络
转自:BP神经网络,保存在此以学习。BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。一个神经网络的结构示意图如下所示。BP神经网转载 2016-10-27 20:22:59 · 1224 阅读 · 0 评论 -
BP神经网络
转自:BP神经网络,保存在此以学习。今天来讲BP神经网络,神经网络在机器学习中应用比较广泛,比如函数逼近,模式识别,分类,数据压缩,数据挖掘等领域。接下来介绍BP神经网络的原理及实现。 Contents 1. BP神经网络的认识 2. 隐含层的选取 3. 正向传递子过程 4. 反向传递子过程 5. BP神经转载 2016-10-27 20:24:57 · 1430 阅读 · 0 评论 -
Canopy聚类算法
转自:Canopy聚类算法,保存在此以学习。一、概念 与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这转载 2016-11-08 21:52:00 · 939 阅读 · 0 评论 -
Canopy算法
转自:聚类-Canopy算法,保存在此以学习。Canopy一般用在K均值之前的粗聚类。考虑到K均值在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因,选择利用Canopy聚类做为Kmeans的前奏比较科学、也是Canopy的优点。 Canopy的优点:转载 2016-11-08 21:50:03 · 3281 阅读 · 0 评论 -
matlab神经网络newff函数的用法
转自:matlab神经网络newff函数的用法,保存在此以学习。设[P,T]是训练样本,[X,Y]是测试样本;net=newrb(P,T,err_goal,spread); %建立网络q=sim(net,p);e=q-T;plot(p,q); %画训练误差曲线q=sim(net,X);e=q-Y;plot(X,q); %画测试误差曲线训练前馈转载 2016-10-29 20:23:34 · 55753 阅读 · 3 评论 -
KMeans聚类算法Hadoop实现
转自:KMeans聚类算法Hadoop实现,保存在此以学习。Assistance.java 辅助类,功能详见注释[java] view plain copy package KMeans; import org.apache.hadoop.conf.Configuration; import org.apac转载 2016-11-18 21:42:01 · 1133 阅读 · 0 评论 -
布隆过滤器
转自:谈谈布隆过滤器,保存在此以学习。之前就阅读过数学之美,知道有这么个基础的算法,可是因为不常用到也就没当回事,最近重新看到它觉得很高大上,就想来mark下设计初衷: (Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的,不知道当时布隆为啥想到设计时究竟是碰到了啥问题,但这确实很有效 **来看下面的问题: 1.检查一个单词是转载 2016-09-13 21:05:17 · 619 阅读 · 0 评论 -
BP神经网络-- 基本模型
转自:BP神经网络-- 基本模型,保存在此以学习。BP 神经网络中的 BP 为 Back Propagation 的简写,最早它是由Rumelhart、McCelland等科学家于 1986 年提出来的,Rumelhart 并在Nature 上发表了一篇非常著名的文章 《Learning representations by back-propagating errors》 。随着时代的转载 2016-09-13 10:28:54 · 6219 阅读 · 0 评论 -
Mahout学习之Mahout简介、安装、配置、入门程序测试
一、Mahout简介查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等转载 2016-07-15 17:00:16 · 1256 阅读 · 0 评论 -
支持向量机(SVM)的详细推导过程及注解(一)
转自:支持向量机(SVM)的详细推导过程及注解(一),保存在此以学习。支持向量机的原理很简单,就是VC维理论和最小化结构风险。在阅读相关论文的时候,发现很多文章都语焉不详,就连《A Tutorial on Support Vector Machines for Pattern Recognition》这篇文章对拉格朗日条件极值问题的对偶变换都只是一笔带过,让很多人觉得很困惑。下面我将就转载 2016-07-19 16:12:30 · 3136 阅读 · 0 评论 -
Kmeans
在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下:输入:参数0--存储样本数据的文本文件inputfile; 参数1--存储样本数据的SequenceFile文件inputPath; 参数2--存储质心数据的SequenceFile文件centerPath; 参数3--存储聚类结果文件转载 2016-07-05 22:00:18 · 697 阅读 · 0 评论 -
Mahout clustering Canopy+K-means 源码分析
聚类分析 聚类(Clustering)可以简单的理解为将数据对象分为多个簇(Cluster),每个簇 里的所有数据对象具有一定的相似性,这样一个簇可以看多一个整体对待,以此可以提高计算质量或减少计算量。而数据对象间相似性的衡量通常是通过坐标系中空间距离的大小来判断;常见的有 欧几里得距离算法、余弦距离算法、皮尔逊相关系数算法等,Mahout对此都提供了实现,并且你可以在实转载 2016-08-15 20:02:57 · 1167 阅读 · 0 评论 -
PCA
转自:PCA主成分分析,保存在此以学习。降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能转载 2016-08-01 10:53:51 · 770 阅读 · 0 评论 -
PCA的数学原理
转自:PCA的数学原理,保存在此以学习。PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的转载 2016-08-01 15:43:58 · 490 阅读 · 0 评论 -
BP神经网络-- C语言实现 上
转载: http://www.cnblogs.com/jzhlin/archive/2012/07/30/bp_c.html在上一篇文章中,介绍了BP神经网络的基本模型、模型中的一些术语并对模型进行了数学上的分析,对它的原理有了初步的认识。那么如何用程序语言来具体的实现它,将是我们下一步需要讨论的问题。本文选取的是C语言来实现一个简单的单隐藏层的BP神经网络(默认大家了解了BP神经网络的基转载 2016-09-13 10:25:33 · 1306 阅读 · 0 评论 -
BP神经网络-- C语言实现 下
转自:BP神经网络-- C语言实现 下,保存在此以学习。上一篇 C语言实现上 中介绍了程序实现时定义的一些数据结构、程序执行的流程以及 程序的基本骨架(详情见 C语言实现上)。留下了两个关键函数computO(i) 和 backUpdate(i) 没有分析实现,参数 i 代表的是第 i 个样本,本篇我们一起来分析下这两个函数的实现。BP神经网络输出 函数 c转载 2016-09-13 10:27:05 · 1661 阅读 · 0 评论 -
BP神经网络介绍
转自:BP神经网络介绍,保存在此以学习。科普:神经网络是一种运算模型,由大量的节点(或称“神经元”,或“单元”)和之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(weight),这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网转载 2016-12-01 16:07:37 · 8298 阅读 · 0 评论