理论+实例，带你入门Greenplum机器学习框架MADlib

最新推荐文章于 2024-04-13 11:24:19 发布

Greenplum中文社区

最新推荐文章于 2024-04-13 11:24:19 发布

阅读量1k

点赞数 1

文章标签：算法数据库大数据 python 机器学习

本文链接：https://blog.csdn.net/gp_community/article/details/112869152

版权

本文介绍了如何使用Greenplum数据库和MADlib框架进行机器学习，特别是通过MADlib实现朴素贝叶斯算法，对MNIST手写数字数据集进行训练和识别。详细阐述了数据准备、导入、模型训练和评估的过程，帮助读者入门Greenplum上的机器学习应用。

摘要由CSDN通过智能技术生成

本文由瀚高基础软件社区作者赫庆贺创作贡献

概述

本文介绍Greenplum和MADlib在机器学习方面的基本概念、架构和原理。并结合MNIST数据集完成对0-9阿拉伯数字的图形识别的应用实例。旨在为数据库开发者和DBA提供简单机器学习的了解和入门的方式。

一、知识与软件准备

1.1 Greenplum

Greenplum是全球首个开源MPP数据库，内核基于PostgreSQL。作为PB级分布式数据库，支持大规模并行数据计算，被广泛应用于企业的OLAP业务场景。Greenplum集群的节点类型主要有master和segment。master提供数据库统一访问入口并协调各计算节点运行，segment作为物理存储和数据计算节点。通过增加segment节点可以实现系统性能的线性扩展。
Greenplum的并行计算能力和线性扩展能力赋能于MADlib，使其有更好的并发度，用更全量的数据和更少的数据移动来做模型训练。

1.2 MADlib

MADlib 是Apache 软件基金会顶级开源项目。作为一个机器学习函数库，MADlib能以扩展插件的形式嵌入到Greenplum和PostgreSQL数据库中，提供SQL层的接口。数据库用户可以直接通过SQL语言调用MADlib的接口完成机器学习的各个过程。
MADlib的架构如下：

为了保证执行效率，MADlib底层算法主要由C++编写，上层接口由python编写。目前已支持超过50种常用算法，并且为开发人员提供了扩展算法的方式。

所有算法都支持在Greenplum各个segment节点上并行运算，并将各个segment上的运算结果汇聚到master节点形成最终结果，计算时的数据仅在数据库内部移动。为了实现这一点，MADlib在数据库内创建一系列的汇聚函数(UDA)和计算函数(UDF)。在MADlib安装时这些函数会被创建在数据库内部。

MADlib支持深度学习算法，集成Keras、Tensorflow、Scipy库，并集成CUDA、CUDNN以支持GPU加速计算。

1.3 机器学习

机器学习是一门多领域交叉学科，涉及概率论、统计学、算法复杂度理论等多门学科。机器学习是人工智能(AI)的核心子领域，机器学习的理论基础是能够让计算机可以自动学习的算法。算法按照学习策略、应用领域、学习形式等方式划分为不同类别。常见机器学习算法有：朴素贝叶斯、线性回归、神经网络、决策树、支持向量机等等。幸运的是，作为一个软件开发者可以不用去了解算法的实现细节，直接调用函数库接口就能使用这些算法。机器学习已在生物特征检测、图像识别、数据挖掘、语义分析等多个领域有广泛应用。

传统方式下，计算机对某一个事物分类的判别方式通常需要一组事先定义好的阈值区间和一系列严格的判断逻辑组合来完成。例如让计算机判断一个物体是不是苹果，要事先告诉计算机苹果的定义是什么。

假设我们定义苹果的属性取值区间为：颜色为红色或青色，直径范围是2cm-10cm，重量范围20g-500g，口感香甜。

计算机判断物体是不是苹果的流程通常如下：