分类Classification-维基百科例子（Wikipedia Bayes Example）

最新推荐文章于 2022-02-11 10:05:38 发布

iteye_14058

最新推荐文章于 2022-02-11 10:05:38 发布

阅读量264

点赞数

分类专栏： mahout 文章标签： Hadoop Java XML C C++

mahout 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

[size=large]介绍[/size]
这个Mahout例子的源码来自一个分类维基百科数据的导出工具，可以Naive贝叶斯或者附加的 Naive贝叶斯在Mahout的实现。下面将描述这个例子，导出维基的数据，然后分类到不同的块。这些块是根据国家进一步分类的。根据这些分割，分离器训练使能够预测，一个未曾看到过的文章被分类到那个国家。

[size=large]运行例子[/size]
1.下载维基百科[url=http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2]数据[/url]

2.解压文件，得到enwiki-latest-pages-articles.xml

3.创建目录$MAHOUT_HOME/examples/temp，拷贝这个xml到这里

4.牵出数据

$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64

我们强烈的建议，备份这个结果到另外一个目录，这样下次就不需要同样操作这个步骤如果发生意外情况

5.创建chunks到HDFS，进行如下核实

hadoop fs -ls wikipedia/chunks

将列出所有的文件，如chunk-0001.xml...

6.基于分割的维基百科数据，创建国家

$MAHOUT_HOME/bin/mahout  wikipediaDataSetCreator  -i wikipedia/chunks -o wikipediainput -c $MAHOUT_HOME/examples/src/test/resources/country.txt

7.验证创造出的数据

hadoop fs -ls wikipediainput

你将能够看到part-r-00000这个文件

8.Train分离器

$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel

这个模型文件将能够从HDFS上的wikipediamodel目录获取到

9.Test分离器

$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput

原文连接：https://cwiki.apache.org/confluence/display/MAHOUT/Wikipedia+Bayes+Example

iteye_14058

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分类Classification-维基百科例子（Wikipedia Bayes Example）

[size=large]介绍[/size]这个Mahout例子的源码来自一个分类维基百科数据的导出工具，可以Naive贝叶斯或者附加的 Naive贝叶斯在Mahout的实现。下面将描述这个例子，导出维基的数据，然后分类到不同的块。这些块是根据国家进一步分类的。根据这些分割，分离器训练使能够预测，一个未曾看到过的文章被分类到那个国家。[size=large]运行例子[/size]1....
复制链接

扫一扫

专栏目录