分布式机器学习主要笔记

最新推荐文章于 2022-11-08 19:12:36 发布

赵大寳Note

最新推荐文章于 2022-11-08 19:12:36 发布

阅读量1.9k

点赞数

分类专栏： Spark笔记文章标签： spark

Spark笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Mahout：机器学习

Mahout是hadoop的一个机器学习库，主要的编程模型是MapReduce；

每个企业的数据都是多样的和特别针对他们需求的。然而, 在对那些数据的分析种类上却没多少多样性。Mahout项目是实施普通分析计算的一个Hadoop库。用例包括用户协同过滤、用户建议、聚类和分类。

MLlib：机器学习

MLlib 运行在spark上（一个基于内存计算的框架），
MLib和mahout都运行在hadoop上，底层都是基于HDFS文件系统；但Mlib运行在spark上，主要基于内存计算。
MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤

MapReduce和Spark的主要区别

MapReduce和Spark的主要区别在于，MapReduce使用分布式文件系统(HDFS)持久存储，而Spark使用弹性分布式数据集(RDDS)。Spark 在内存中处理数据，而 Hadoop MapReduce 是通过 map 和 reduce 操作在磁盘中处理数据。

数据处理

MapReduce是一种批量处理引擎。MapReduce以顺序步骤来操作，先从集群读取数据，然后对数据执行操作，将结果写回到集群，从集群读取更新后的数据，执行下一个数据操作，将那些结果写回到结果，依次类推。
Spark执行类似的操作，不过是在内存中一步执行。它从集群读取数据后，对数据执行操作，然后写回到集群。

spark下运行程序如果内存溢出怎么办？
1 加内存，简单粗暴
2 将rdd的数据写入磁盘不要保存在内存之中
3 如果是collect操作导致的内存溢出，可以增大 Driver的 memory 参数

简答说一下hadoop的map-reduce编程模型

首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合

使用的是hadoop内置的数据类型，比如longwritable、text等

将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出

之后会进行一个partition分区操作，默认使用的是hashpartitioner，可以通过重写hashpartitioner的getpartition方法来自定义分区规则

之后会对key进行进行sort排序，grouping分组操作将相同key的value合并分组输出，在这里可以使用自定义的数据类型，重写WritableComparator的Comparator方法来自定义排序规则，重写RawComparator的compara方法来自定义分组规则

之后进行一个combiner归约操作，其实就是一个本地段的reduce预处理，以减小后面shufle和reducer的工作量

reduce task会通过网络将各个数据收集进行reduce处理，最后将数据保存或者显示，结束整个job

Spark之所以快是因为它运行在内存之中
RDD：Resilient Distributed Dataset，弹性分布式数据库。
DataFrame：可以从结构化的数据文件、Hive中的表、外部的数据库、已存在的RDD来创建。

赵大寳Note

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分布式机器学习主要笔记

Mahout：机器学习Mahout是hadoop的一个机器学习库，主要的编程模型是MapReduce；每个企业的数据都是多样的和特别针对他们需求的。然而, 在对那些数据的分析种类上却没多少多样性。Mahout项目是实施普通分析计算的一个Hadoop库。用例包括用户协同过滤、用户建议、聚类和分类。MLlib：机器学习MLlib 运行在spark上（一个基于内存计算的框架）， ...
复制链接

扫一扫