- 博客(2)
- 收藏
- 关注
原创 MapReduce如何使用多路输出
Streaming支持多路输出(SuffixMultipleTextOutputFormat)如下示例:hadoop streaming \-input /home/mr/data/test_tab/ \-output /home/mr/output/tab_test/out19 \-outputformatorg.apache.hadoop.mapred.lib.Suffix
2014-06-24 20:38:13 5932
转载 文本向量表示及TFIDF词汇权值
文本相似计算是进行文本聚类的基础,和传统结构化数值数据的聚类方法类似,文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同,文本数据是一种半结构化数据,在进行文本挖掘之前必须要对文本数据源进行处理,如分词、向量化表示等,其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分
2014-06-11 17:48:59 3038
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人