自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

转载 Mahout算法集

Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表:

2016-08-15 14:20:50 537

转载 hadoop2.5.2 mahout0.10.1 测试文本分类器

说明:本文是对下面这篇文章的一个更新,下面这篇文章环境采用的是mahout0.9 + hadoop2.2.0,本人的是mahout0.10.1+hadoop2.5.2--------------------------------------------------------------------------mahout0.9 + hadoop2.2 中文文本分类实战(上)链接

2016-08-15 14:17:47 419

转载 Mahout文本聚类学习之DocumentProcessor类

做为文本聚类实现的第一步对语料分词是必须的,而documentprocessor类提供了一个基于mapreduce对大量数据集分词的高效灵活的实现。高效是其基于mapreduce分布式计算框架,灵活是其提供了可扩展的分词接口可以对多种语言分词的支持。  下面就要深入一下类内部的流程进行学习:documentprocessor类,它只提供了一个静态方法tokenizeddocuments();

2016-08-10 11:17:05 631

转载 java Pattern和Matcher详解

结论:Pattern与Matcher一起合作.Matcher类提供了对正则表达式的分组支持,以及对正则表达式的多次匹配支持. 单独用Pattern只能使用Pattern.matcher(String regex,CharSequence input)一种最基础最简单的匹配。Java正则表达式通过java.util.regex包下的Pattern类与Matcher类实现(建议在阅读本

2016-08-10 10:55:45 300

转载 Lucene分词实现:Analyzer、TokenStream

Lucene分词实现(二次开发流程)1.1  分词流程在Lucene3.0中,对分词主要依靠Analyzer类解析实现。Analyzer内部主要通过TokenStream类实现。Tonkenizer类、TokenFilter类是TokenStream的两个子类。Tokenizer处理单个字符组成的字符流,读取Reader对象中的数据,处理后转换成词汇单元。Tokne

2016-08-10 10:44:02 378

转载 eclipse+maven+mahout :环境搭建+推荐

本文记录了Windows下 Eclipse+Maven+Mahout 单机环境的搭建过程。我不知道这是不是最简单的Mahout开发环境,但它应该算得上是比较简单的。二、安装Eclipse这个没啥说的,再怎么零基础,也要会用Eclipse吧。Eclipse的下载地址为: http://www.eclipse.org/downloads/ ,选择标准版就行。 安装完后运行Eclip

2016-08-04 10:14:27 1871

第四届蓝桥杯模拟题

题是学校花800元从举办方买来的模拟题难度与真题一样

2013-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除