mahout的数据文件格式

最新推荐文章于 2023-05-09 00:36:51 发布

DragonWar%

最新推荐文章于 2023-05-09 00:36:51 发布

阅读量355

点赞数

文章标签：大数据数据结构与算法 python

原文链接：https://my.oschina.net/airship/blog/3015084

版权

2019独角兽企业重金招聘Python工程师标准>>>

原文地址：https://cwiki.apache.org/confluence/display/MAHOUT/Data+Formats

Mahout支持许多格式的文件以便实现各种工作。
文件格式
可导入的文件格式
1. 文本文件
        （1）满足以下格式的文本可以转化为流数据文件导入：
            （行号，行文本）
            （文件名，文件的全部内容）
            （行号，行份的用正则表达式模式）
        （2）可以解析为Lucene索引的文本：
              精确的索引设计？??(此处不明白为什么会有三个问号，可能有部分文本会失败吧)
2. ARFF文件
        WEKA（来源）项目文本数据格式
        可以<Int,Vector>格式生成流文件的数据
3. 邮箱文件
           满足以下格式的邮件可以转化为流数据文件导入：
            （邮件ID，电子邮件消息的文本正文）
            没有HTML或附件支持
4.CSV文件
        不导入行头和列头
        没有“多个值，每列”选项
5. Hadoop的流文件
        规范的，没有变化。目前没有使用的元数据。
6.Lucene索引
        转换为流文件
            精确的索引设计？

可导出的格式

    hadoop的流文件
    文本行，可以使用toString（）函数的类型
    MatrixWritable ConfusionMatrix
    可供MatrixWritable使用的CSV
    一个特殊的CSV格式集群
    GraphML XML集群

流文件中存储的内容的格式
“简化的”文本vectors
文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字，它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。