- 博客(20)
- 资源 (12)
- 收藏
- 关注
转载 rweter
package com.unicom.classifiers;import java.util.List;import org.apache.commons.cli2.CommandLine;import org.apache.commons.cli2.Group;import org.apache.commons.cli2.Option;import org.
2013-12-31 18:08:21 274
转载 mahout调用流程分析
from http://hi.baidu.com/izouying/item/cea7e76658e85937ac3e83f6剖析mahout脚本mahout 位于$MAHOUT_HOME/bin目录下,是所有mahout调用的入口。主要会做各类环境变量的设置。MAHOUT_JAVA_HOME:指定java的执行路劲,会覆盖$JAVA_HOMEMAHOUT_HEAP
2013-12-31 13:44:36 342
原创 Ant-Ivy使用
Apache Ivy是专门用来管理项目的jar包依赖的。我们知道Maven已经有很出色的这方面的功能,如果你已经在使用Maven,就没必要使用Ivy了。但是其实Maven除了这方面功能,还有很多强大的功能,如果你只需要管理jar包依赖而已,那么可以只用Ivy就够了,用Maven就有点大材小用。 1. 首先,你的机器应该已经安装了Ant和JDK,最好是1.6或更高版本的Ant,并在
2013-12-30 17:22:35 335
原创 mahout 命令与类相应的映射文件
在mahout中是通过MahoutDriver来运行我们自己编写的和它自带的程序的main函数,以下是driver.classes.props文件#Utilsorg.apache.mahout.utils.vectors.VectorDumper = vectordump : Dump vectors from a sequence file to textorg.apache.mahout.ut
2013-12-30 13:45:26 895
原创 js string object
String ObjectThe String object is used to manipulate a stored piece of text.String objects are created with new String().Syntaxvar txt = new String("string");or more simply:var txt
2013-12-30 11:12:09 612
转载 lucene 中文分词
内容提要:以ChineseAnalyzer为例,简单讲讲lucene分析器,也就是analyzer的分析过程一:分析器原理语料——>过滤器过滤——>tokeniner分词器分词——>词元——>放进字典(记录词元和位置信息)二:代码分析1:一共有5个类,第一个是ChineseAnalyzer分析器类,还有ChineseFilter过滤器类和它的工厂类,和Chinese
2013-12-28 17:27:33 360
原创 maven 杂记
解决 'build.plugins.plugin.version' for org.apache.maven.plugins:maven-compiler-plugin is missing. @ line ?, column ?http://qiang106.iteye.com/blog/1388645
2013-12-28 16:05:24 717
转载 稀疏矩阵的存储格式(Sparse Matrix Storage Formats)
from http://blog.csdn.net/anshan1984/article/details/8580952 稀疏矩阵的存储格式对于很多元素为零的稀疏矩阵,仅存储非零元素可使矩阵操作效率更高。现有许多种稀疏矩阵的存储方式,但是多数采用相同的基本技
2013-12-26 13:39:18 1661
原创 TDIDF 自动提取关键词
TDIF学习资料http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
2013-12-24 15:40:08 581 1
原创 markov model学习
收集一些中文学习马尔克夫模型的资料,http://www.52nlp.cn/category/hidden-markov-model
2013-12-23 23:35:09 321
原创 mahout classify 输入编程
package com.unicom.classifiers;import java.io.BufferedReader;import java.io.FileReader;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.a
2013-12-23 00:18:58 320
转载 mahout 自动化分类twitter信息
from http://chimpler.wordpress.com/2013/03/13/using-the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/Classification algorithms can be used to automatically classify doc
2013-12-21 17:36:51 818
转载 awk 正则表达式
前言:使用awk作为文本处理工具,正则表达式是少不了的。 要掌握这个工具的正则表达式使用。其实,我们不必单独去学习它的正则表达式。正则表达式就像一门程序语言,有自己语法规则已经表示意思。 对于不同工具,其实大部分表示意思相同的。在linux众多文本处理工具(awk,sed,grep,perl)里面用到正则表达式。其实就只有3种类型。详细可以参考:linux shell 正则表达式(BREs,E
2013-12-21 16:12:23 316
原创 linux shell 学习
shell 学习网站http://linux.vbird.org/linux_basic/0340bashshell-scripts.php
2013-12-15 16:42:11 330
原创 vim 替换
转载:http://andyss.blog.51cto.com/315552/131652语法为 :[addr]s/源字符串/目的字符串/[option]全局替换命令为::%s/源字符串/目的字符串/g[addr] 表示检索范围,省略时表示当前行。如:“1,20” :表示从第1行到20行;“%” :表示整个文件,同“1,$”;“. ,$” :从当前行到文件尾;
2013-12-15 13:44:02 282
原创 hadoop 测试 api
我做基准测试主要是用了hadoop-0.20.2-test.jar这个工具jar包。主要是做了I/O的测试。在网上也找了一些资料,抄抄谢谢记录如下:DFSCIOTest 测试libhdfs中的分布式I/O的基准。Libhdfs是一个为C/C++应用程序提供HDFS文件服务的共享库。DistributedFSCheck 文件系统一致性的分布式检查。Test
2013-12-14 22:40:31 287
原创 mahout 源码分析 classifier
版本:mahout 0.6 模块:classification算法:bayes训练model过程1. org.apache.mahout.classifier.bayes.TrainClassifier public static void trainNaiveBayes(String dir, String outputDir, int gramSize) thro
2013-12-14 15:25:12 96
原创 学习mahout最好的中文资料
最近在学习mahout,搜索关于mahout的资料,终于看到好的,mahout对于cf,cluster,classification的有比较好的讲解http://www.slideshare.net/bigdatasyd/machine-learning-withmahout
2013-12-11 21:17:24 324
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人