对于Mahout__"推荐算法"的初步认识（2）

最新推荐文章于 2024-09-25 10:36:14 发布

weew_pp

最新推荐文章于 2024-09-25 10:36:14 发布

阅读量564

点赞数

分类专栏： Mahout 文章标签：大数据算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weew_pp/article/details/38341359

版权

Mahout 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

首先，随手记下看到的Mahout源码目录说明：

mahout项目是由多个子项目组成的，各子项目分别位于源码的不同目录下，下面对mahout的组成进行介绍：

1、mahout-core：核心程序模块，位于/core目录下；

2、mahout-math：在核心程序中使用的一些数据通用计算模块，位于/math目录下；

3、mahout-utils：在核心程序中使用的一些通用的工具性模块，位于/utils目录下；

上述三个部分是程序的主题，存储所有mahout项目的源码。

另外，mahout提供了样例程序，分别在taste-web和examples目录下：

4、taste-web：利用mahout推荐算法而建立的基于WEB的个性化推荐系统demo；

5、examples：对mahout中各种机器学习算法的应用程序；

6、bin：bin目录下只有一个名为mahout的文件，是一个shell脚本文件，用于在hadoop平台的命令行下调用mahout中的程序；

在buildtools、eclipse和distribution目录下，有mahout相关的配置文件

7、buildtools目录下是用于核心程序构建的配置文件，以mahout-buildtools的模块名称在mahout的pom.xml文件中进行说明；

8、eclipse下的xml文件是对利用eclipse开发mahout的配置说明；

9、distribution目录下有两个配置文件：bin.xml和src.xml，进行mahou安装时的一些配置信息。

（在开发的时候一般很少对这个目录下的文件进行修改，所以不用太关注，知道大体什么意思就ok）

另外，在mahout的下载地址下可以看到有个文件夹与mahout处于同一级别，它是mahout项目的分支项目—mahout- collections，用于实现了核心程序中使用的集合类操作，该模块独立于mahout进行开发，是对标准jdk中关于集合类的修改，使其可以适应数据密集型项目的开发。

下面开始这次blog的内容：

Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务发送(Map)到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。

心里烦躁，好多学到的东西不想写了，先回去了，明天早点来研究。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。