Mahout
文章平均质量分 62
iteye_20080
这个作者很懒,什么都没留下…
展开
-
Mahout Local模式 执行example的注意点
在export MAHOUT_LOCAL=true后,执行.sh时,出现Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/ProgramDriver,意思是找不到hadoop的jar文件,可以在mahout-examples-0.7-job.jar中更新META-INF/MAIN...原创 2012-07-25 19:56:17 · 175 阅读 · 0 评论 -
【转】将lucene索引转化成mahout输入向量
转自:http://blog.csdn.net/aidayei/article/details/6632819 mahout lucene.vector --dir /home/test/test-in/index/ --output /home/test/test-in/outdex/part-out.vec --field body --dictOut /home/test/te...原创 2012-05-09 14:07:38 · 99 阅读 · 0 评论 -
将 Solr 等 data 转换为 Mahout vector
参考:http://mylazycoding.blogspot.com/2012/03/cluster-apache-solr-data-using-apache_13.html Lately, I was working on Integration of Apache Mahout algorithms with Apache Solr. I am able to integ...原创 2012-05-09 20:53:28 · 133 阅读 · 0 评论 -
【转】mahout中的kmeans结果分析
转:http://blog.csdn.net/aidayei/article/details/6665530 运行官网上的mahout kmeas示例,结果文件夹有clusteredPoints,clusters-N,data,用命令mahout seqdumper仔细看了一下结果文件 clusteredPoints:存放的是最后聚类的结果,将cluster-id和documents-i...原创 2012-05-13 22:45:52 · 134 阅读 · 0 评论 -
【转】mahout应用kmeans进行文本聚类1之——输入输出分析
转:http://blog.csdn.net/aidayei/article/details/6674112 输入分析: mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile,而聚类必须是向量格式的,mahout提供下面两个命令来将文本转成向量形式1.mahout seqdirectory:将文本文件转成SequenceFi...原创 2012-05-13 22:46:36 · 132 阅读 · 0 评论 -
【转】mahout应用kmeans进行文本聚类2之——实例分析
转:http://blog.csdn.net/aidayei/article/details/6674135 在Mahout_in_Action这本书中,给了一个文本的聚类实例,并提供了原始输入数据,下面结合例子说明 作为聚类算法的主要应用场景 - 文本分类,对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式,就是信息检索领域中最常用的向量空间模型 词频 - 逆...原创 2012-05-13 22:47:11 · 116 阅读 · 0 评论 -
混淆矩阵(Confusion Matrix)
在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。 在图像精度评价中,主要用于比较分类结果和地表真实信息,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个地表真实像元的位置和分类与分类图象中的相应位置和分类像比较计算的。混淆矩阵的每一列代表了地面参考验证信息,每一列中的数值等于地表真实像元在分类图象中对应于...原创 2012-11-14 15:10:19 · 822 阅读 · 0 评论 -
mahout将文本数据转化成向量形式
对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceFile文件是一种二制制存储的key-value键值对,对应的源文件是org.apache.ma...原创 2012-11-14 15:38:45 · 607 阅读 · 0 评论