2016年08月_arrow8071

08月 07月 06月 05月

转载 Mahout算法集

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序，并且，在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持，使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表：

2016-08-15 14:20:50 553

转载 hadoop2.5.2 mahout0.10.1 测试文本分类器

说明：本文是对下面这篇文章的一个更新，下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0，本人的是mahout0.10.1+hadoop2.5.2--------------------------------------------------------------------------mahout0.9 + hadoop2.2 中文文本分类实战（上）链接

2016-08-15 14:17:47 439

转载 Mahout文本聚类学习之DocumentProcessor类

做为文本聚类实现的第一步对语料分词是必须的，而documentprocessor类提供了一个基于mapreduce对大量数据集分词的高效灵活的实现。高效是其基于mapreduce分布式计算框架，灵活是其提供了可扩展的分词接口可以对多种语言分词的支持。　　下面就要深入一下类内部的流程进行学习：documentprocessor类，它只提供了一个静态方法tokenizeddocuments();

2016-08-10 11:17:05 648

转载 java Pattern和Matcher详解

结论：Pattern与Matcher一起合作.Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持. 单独用Pattern只能使用Pattern.matcher(String regex,CharSequence input)一种最基础最简单的匹配。Java正则表达式通过java.util.regex包下的Pattern类与Matcher类实现(建议在阅读本

2016-08-10 10:55:45 310

转载 Lucene分词实现:Analyzer、TokenStream

Lucene分词实现(二次开发流程)1.1 分词流程在Lucene3.0中，对分词主要依靠Analyzer类解析实现。Analyzer内部主要通过TokenStream类实现。Tonkenizer类、TokenFilter类是TokenStream的两个子类。Tokenizer处理单个字符组成的字符流，读取Reader对象中的数据，处理后转换成词汇单元。Tokne

2016-08-10 10:44:02 396

转载 eclipse+maven+mahout ：环境搭建+推荐

本文记录了Windows下 Eclipse+Maven+Mahout 单机环境的搭建过程。我不知道这是不是最简单的Mahout开发环境，但它应该算得上是比较简单的。二、安装Eclipse这个没啥说的，再怎么零基础，也要会用Eclipse吧。Eclipse的下载地址为： http://www.eclipse.org/downloads/ ，选择标准版就行。安装完后运行Eclip

2016-08-04 10:14:27 1892

第四届蓝桥杯模拟题

题是学校花800元从举办方买来的模拟题难度与真题一样

2013-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人