mahout
arrow8071
这个作者很懒,什么都没留下…
展开
-
(转)Mahout使用入门
一、简介Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Ha转载 2016-05-24 11:35:35 · 614 阅读 · 0 评论 -
hadoop2.5.2 mahout0.10.1 测试文本分类器
说明:本文是对下面这篇文章的一个更新,下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0,本人的是mahout0.10.1+hadoop2.5.2--------------------------------------------------------------------------mahout0.9 + hadoop2.2 中文文本分类实战(上)链接转载 2016-08-15 14:17:47 · 449 阅读 · 0 评论 -
Mahout文本聚类学习之DocumentProcessor类
做为文本聚类实现的第一步对语料分词是必须的,而documentprocessor类提供了一个基于mapreduce对大量数据集分词的高效灵活的实现。高效是其基于mapreduce分布式计算框架,灵活是其提供了可扩展的分词接口可以对多种语言分词的支持。 下面就要深入一下类内部的流程进行学习:documentprocessor类,它只提供了一个静态方法tokenizeddocuments();转载 2016-08-10 11:17:05 · 660 阅读 · 0 评论 -
Lucene分词实现:Analyzer、TokenStream
Lucene分词实现(二次开发流程)1.1 分词流程在Lucene3.0中,对分词主要依靠Analyzer类解析实现。Analyzer内部主要通过TokenStream类实现。Tonkenizer类、TokenFilter类是TokenStream的两个子类。Tokenizer处理单个字符组成的字符流,读取Reader对象中的数据,处理后转换成词汇单元。Tokne转载 2016-08-10 10:44:02 · 407 阅读 · 0 评论 -
eclipse+maven+mahout :环境搭建+推荐
本文记录了Windows下 Eclipse+Maven+Mahout 单机环境的搭建过程。我不知道这是不是最简单的Mahout开发环境,但它应该算得上是比较简单的。二、安装Eclipse这个没啥说的,再怎么零基础,也要会用Eclipse吧。Eclipse的下载地址为: http://www.eclipse.org/downloads/ ,选择标准版就行。 安装完后运行Eclip转载 2016-08-04 10:14:27 · 1903 阅读 · 0 评论 -
mahout源码目录结构(二)
1.mahout的源码实现了两部分:(1)mahout核心源码(2)mahout定制Collections集合工具2.Mahout源码目录说明mahout-core:核心程序模块,位于/core目录下mahout-math:核心程序使用的一些数据通用计算模块,位于/math目录下mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下3.转载 2016-05-31 12:59:17 · 405 阅读 · 0 评论 -
mahout应用kmeans进行文本聚类——实例分析
输入分析:mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile,而聚类必须是向量格式的,mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceFile文件是一种二制制存储的key-value键值对,http://www.dongt转载 2016-05-27 11:10:27 · 2311 阅读 · 0 评论 -
mahout源码目录说明(转)
mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍:1、mahout-core:核心程序模块,位于/core目录下;2、mahout-math:在核心程序中使用的一些数据通用计算模块,位于/math目录下;3、mahout-utils:在核心程序中使用的一些通用的工具性模块,位于/utils目录下;上述三个部分是程序的主题,存储转载 2016-05-27 11:07:43 · 340 阅读 · 0 评论 -
eclipse中mahout源码的导入及编译
1、将mahout源码导入到eclipse中: 1)解压mahout源码压缩文件,目录时:E:\EProject\mahout-distribution-0.52)把源码导入eclipse中(eclipse的版本必须是3.6以上的吧,因为我3,5的没有自带maven项目)打开eclipse,点击file->import 在开打的对话框中,选择导入maven项目如下图,然后点转载 2016-05-27 11:05:57 · 1465 阅读 · 0 评论 -
hadoop + mahout 安装配置
最近一直捣鼓Mahout,终于在Hadoop下成功跑起来了。由于涉及的点比较多,这里先记录整理一下,做参考备忘使用。一、操作系统Ubuntu Desktop 13.04 (RaringRingtail)官网地址:http://releases.ubuntu.com/13.04/国内镜像地址:中科大 http://ubuntu1304.cdn.mirrors.ustc.转载 2016-05-25 20:31:24 · 1018 阅读 · 0 评论 -
Mahout算法集
Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:转载 2016-08-15 14:20:50 · 564 阅读 · 0 评论