Thinkgamer博客

扫码关注【数据与算法联盟】公众号,拉你进数据算法大佬群

Mahout学习之聚类算法Kmeans

一:kMeans算法介绍 聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类...

2015-10-23 22:30:32

阅读数:1236

评论数:0

Mahout分类算法学习之实现Naive Bayes分类示例

1.简介 (1) 贝叶斯分类器的分类原理发源于古典概率理论,是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯分类器(Naive Bayes Classifier)做了一个简单的假定:给定目标值时属性之间相互条件...

2015-10-23 20:37:23

阅读数:1927

评论数:1

CURL常用命令

下载单个文件,默认将输出打印到标准输出中(STDOUT)中 curl http://www.centos.org 通过-o/-O选项保存下载的文件到指定的文件中: -o:将文件保存为命令行中指定的文件名的文件中 -O:使用URL中默认的文件名保存文件到本地 1 # 将文件...

2015-10-18 10:13:45

阅读数:1089

评论数:0

Mahout学习之命令行创建序列文件

一:命令行转换 创建新的工作目录 mkdir lastfm mkdir ./lastfm/original 自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换,首先将其放在origiinal文件夹中 进入maho...

2015-10-11 14:25:37

阅读数:1211

评论数:0

Mahout学习之运行canopy算法错误及解决办法

一:将Text转换成Vector序列文件时  在Hadoop中运行编译打包好的jar程序,可能会报下面的错误: Exception in thread "main" java.lang.NoClassDefFoundError:  org/apache/mahout/comm...

2015-10-11 13:31:58

阅读数:1911

评论数:0

Mahout聚类算法学习之Canopy算法的分析与实现

3.1 Canopy算法 3.1.1 Canopy算法简介 Canopy算法的主要思想是把聚类分为两个阶段:阶段一,通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集,称为“canopy”;阶段二,通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量...

2015-10-09 16:05:16

阅读数:2914

评论数:0

《机器学习实战》kMeans算法(K均值聚类算法)

机器学习中有两类的大问题,一个是分类,一个是聚类。分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,这在...

2015-10-07 15:34:36

阅读数:6694

评论数:4

《机器学习实战》二分-kMeans算法(二分K均值聚类)

首先二分-K均值是为了解决k-均值的用户自定义输入簇值k所延伸出来的自己判断k数目,其基本思路是: 为了得到k个簇,将所有点的集合分裂成两个簇,从这些簇中选取一个继续分裂,如此下去,直到产生k个簇。 伪代码: 初始化簇表,使之包含由所有的点组成的簇。 repeat 从簇表中取出一个簇。...

2015-10-07 15:32:34

阅读数:8882

评论数:4

关于Python多线程的理解

多线程和多进程是什么自行google补脑   对于python 多线程的理解,我花了很长时间,搜索的大部份文章都不够通俗易懂。所以,这里力图用简单的例子,让你对多线程有个初步的认识。   单线程     在好些年前的MS-DOS时代,操作系统处理问题都是单任务的,我想做听音乐和看电影两件...

2015-10-06 17:51:09

阅读数:1535

评论数:0

搜索引擎:文本分类——TF/IDF算法

TF-IDF(Term frequency-inverse document frequency ) 是文本挖掘中一种广泛使用的特征向量化方法。TF-IDF反映了语料中单词对文档的重要程度。假设单词用t表示,文档用d表示,语料用D表示,那么文档频度DF(t, D)是包含单词t的文档数。如果我们只...

2015-10-06 12:43:13

阅读数:4198

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭