- 博客(6)
- 资源 (1)
- 收藏
- 关注
转载 Mahout算法集
Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:
2016-08-15 14:20:50 553
转载 hadoop2.5.2 mahout0.10.1 测试文本分类器
说明:本文是对下面这篇文章的一个更新,下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0,本人的是mahout0.10.1+hadoop2.5.2--------------------------------------------------------------------------mahout0.9 + hadoop2.2 中文文本分类实战(上)链接
2016-08-15 14:17:47 439
转载 Mahout文本聚类学习之DocumentProcessor类
做为文本聚类实现的第一步对语料分词是必须的,而documentprocessor类提供了一个基于mapreduce对大量数据集分词的高效灵活的实现。高效是其基于mapreduce分布式计算框架,灵活是其提供了可扩展的分词接口可以对多种语言分词的支持。 下面就要深入一下类内部的流程进行学习:documentprocessor类,它只提供了一个静态方法tokenizeddocuments();
2016-08-10 11:17:05 648
转载 java Pattern和Matcher详解
结论:Pattern与Matcher一起合作.Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持. 单独用Pattern只能使用Pattern.matcher(String regex,CharSequence input)一种最基础最简单的匹配。Java正则表达式通过java.util.regex包下的Pattern类与Matcher类实现(建议在阅读本
2016-08-10 10:55:45 310
转载 Lucene分词实现:Analyzer、TokenStream
Lucene分词实现(二次开发流程)1.1 分词流程在Lucene3.0中,对分词主要依靠Analyzer类解析实现。Analyzer内部主要通过TokenStream类实现。Tonkenizer类、TokenFilter类是TokenStream的两个子类。Tokenizer处理单个字符组成的字符流,读取Reader对象中的数据,处理后转换成词汇单元。Tokne
2016-08-10 10:44:02 396
转载 eclipse+maven+mahout :环境搭建+推荐
本文记录了Windows下 Eclipse+Maven+Mahout 单机环境的搭建过程。我不知道这是不是最简单的Mahout开发环境,但它应该算得上是比较简单的。二、安装Eclipse这个没啥说的,再怎么零基础,也要会用Eclipse吧。Eclipse的下载地址为: http://www.eclipse.org/downloads/ ,选择标准版就行。 安装完后运行Eclip
2016-08-04 10:14:27 1892
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人