自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Thinkgamer博客

《推荐系统开发实战》作者,「搜索与推荐Wiki」公号负责人,CyanScikit科技创始人...

原创 Mahout学习之聚类算法Kmeans

一:kMeans算法介绍 聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来...

2015-10-23 22:30:32

阅读数 1428

评论数 0

原创 Mahout分类算法学习之实现Naive Bayes分类示例

1.简介 (1) 贝叶斯分类器的分类原理发源于古典概率理论,是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯分类器(Naive Bayes Classifier)做了一个简单的假定:给定目标值时属性之间相互条...

2015-10-23 20:37:23

阅读数 2312

评论数 1

原创 CURL常用命令

下载单个文件,默认将输出打印到标准输出中(STDOUT)中 curl http://www.centos.org 通过-o/-O选项保存下载的文件到指定的文件中: -o:将文件保存为命令行中指定的文件名的文件中 -O:使用URL中默认的文件名保存文件到本地 1 # 将文件下载到本地...

2015-10-18 10:13:45

阅读数 1169

评论数 0

原创 Mahout学习之命令行创建序列文件

一:命令行转换 创建新的工作目录 mkdir lastfm mkdir ./lastfm/original export WORK_DIR=/home/thinkgamer/document/lastfm cd $WORK_DIR 自己准备一个数据集放在original文件夹下,例如将...

2015-10-11 14:25:37

阅读数 1374

评论数 0

原创 Mahout学习之运行canopy算法错误及解决办法

一:将Text转换成Vector序列文件时 在Hadoop中运行编译打包好的jar程序,可能会报下面的错误: Exceptioninthread"main"java.lang.NoClassDefFoundError: org/apache/mahout/common/...

2015-10-11 13:31:58

阅读数 2064

评论数 0

原创 Mahout聚类算法学习之Canopy算法的分析与实现

3.1 Canopy算法3.1.1 Canopy算法简介 Canopy算法的主要思想是把聚类分为两个阶段:阶段一,通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集,称为“canopy”;阶段二,通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量的距...

2015-10-09 16:05:16

阅读数 3391

评论数 0

原创 《机器学习实战》kMeans算法(K均值聚类算法)

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实...

2015-10-07 15:34:36

阅读数 8032

评论数 6

原创 《机器学习实战》二分-kMeans算法(二分K均值聚类)

===================================================================== 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法 算法...

2015-10-07 15:32:34

阅读数 13200

评论数 6

原创 关于Python多线程的理解

多线程和多进程是什么自行google补脑   对于python多线程的理解,我花了很长时间,搜索的大部份文章都不够通俗易懂。所以,这里力图用简单的例子,让你对多线程有个初步的认识。 单线程   在好些年前的MS-DOS时代,操作系统处理问题都是单任务的,我想做听音乐和看电影两件事儿,那么一定...

2015-10-06 17:51:09

阅读数 1643

评论数 0

原创 搜索引擎:文本分类——TF/IDF算法

原理 TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Fre...

2015-10-06 12:43:13

阅读数 5710

评论数 0

提示
确定要删除当前文章?
取消 删除