machine learn&mahout
wangqiaoshi
这个作者很懒,什么都没留下…
展开
-
TDIDF 自动提取关键词
TDIF学习资料http://www.ruanyifeng.com/blog/2013/03/tf-idf.html原创 2013-12-24 15:40:08 · 581 阅读 · 1 评论 -
lucene,mahout中文分词杂记
http://git.oschina.net/lionsoul/jcseg原创 2013-12-28 21:40:10 · 721 阅读 · 0 评论 -
lucene 中文分词
内容提要:以ChineseAnalyzer为例,简单讲讲lucene分析器,也就是analyzer的分析过程一:分析器原理语料——>过滤器过滤——>tokeniner分词器分词——>词元——>放进字典(记录词元和位置信息)二:代码分析1:一共有5个类,第一个是ChineseAnalyzer分析器类,还有ChineseFilter过滤器类和它的工厂类,和Chinese转载 2013-12-28 17:27:33 · 360 阅读 · 0 评论 -
mahout 自动化分类twitter信息
from http://chimpler.wordpress.com/2013/03/13/using-the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/Classification algorithms can be used to automatically classify doc转载 2013-12-21 17:36:51 · 818 阅读 · 0 评论 -
mahout Classifying naive bayes
有一篇twitter classify message ,用了朴素贝叶斯分类器https://chimpler.wordpress.com/2013/03/13/using-the-mahout-naive-bayes-classifier-to-automatically-classify-twitter-messages/原创 2013-11-27 16:04:05 · 523 阅读 · 1 评论 -
mahout调用流程分析
from http://hi.baidu.com/izouying/item/cea7e76658e85937ac3e83f6剖析mahout脚本mahout 位于$MAHOUT_HOME/bin目录下,是所有mahout调用的入口。主要会做各类环境变量的设置。MAHOUT_JAVA_HOME:指定java的执行路劲,会覆盖$JAVA_HOMEMAHOUT_HEAP转载 2013-12-31 13:44:36 · 342 阅读 · 0 评论 -
markov model学习
收集一些中文学习马尔克夫模型的资料,http://www.52nlp.cn/category/hidden-markov-model原创 2013-12-23 23:35:09 · 321 阅读 · 0 评论 -
mahout classify 输入编程
package com.unicom.classifiers;import java.io.BufferedReader;import java.io.FileReader;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.a原创 2013-12-23 00:18:58 · 320 阅读 · 0 评论 -
mahout classification
最近在看mahout in action,大部分看完了,但是zu原创 2013-12-11 18:36:57 · 338 阅读 · 0 评论