一种基于开源软件的完整的大数据、人工智能底座搭配方式

杨美红1986

已于 2023-05-18 17:50:11 修改

阅读量337

点赞数

文章标签：大数据人工智能

于 2023-05-18 17:47:49 首次发布

原文链接：https://mp.weixin.qq.com/s/txm7mj3grniBKjldMUVN6Q

版权

目前基于Hadoop集群、GPU集群的大数据与人工智能应用是市场主流；各公司存在各种部署方案，个性化改造方案；各种结构化数据挖掘与智能化、非结构化数据挖掘与智能应用、图片、视频的处理等，包括最近流行的大模型方案，都需要底层的软硬件支撑。各公司一般是取其中一部分进行开发部署运维，无彻底整合到一起的实践。根据个人经历与思考，完全基于开源软件（不包含GPU驱动），构造此完全整合方案。

一、主要硬件：

1、主机：Hadoop大存储主机、GPU主机、计算型/内存型vm宿主机（或直接云主机，基于OpenStack平台）。

2、额外云存储：COS存储、CFS存储

3、网络：万兆、十万兆网络、IB网络

二、主要软件：

1、Hadoop全家桶：

(1)数据采集：kafka

(2)离线计算：MPP、Hadoop

(3)流计算：Flink、Spark

(4)数据管理：HDFS、Hive、MPP、HBASE、elasticSearch、apache Kylin、ArangoDB

(5)资源调度：Hadoop yarn、kubernets、zookeeper

2、k8s全家桶+GPU驱动相关开源软件。

(1)Kubernets：

环境设置：设置节点名称，时区，安装依赖包，关闭swap、防火墙。

容器运行时：docker或者containerd，本人习惯用docker。

HA负载均衡：安装keepalived和haproxy

安装软件：Kubeadm

(2)GPU或其他边端设备、类GPU算力：

GPU驱动：Tesla系列NVIDIA显卡，需要安装官网驱动

k8s驱动插件：nvidia-docker、nvidia-device-plugin

(3)DevOps：jenkins、Git

3、各种人工智能相关训练与推理软件。

(1)开发训练平台：SmartIDE

包含go、python、java、C++等开发环境，结合cuda运算平台

交互环境：Jupyer

(2)推理平台：Seldoncore

(3)计算框架：TensorFlow、pyTorch

(4)标注工具：

语音标注工具：praat、Transcriber和label studio

NLP标注工具：brat、doccano

图片标注工具：labelme、LabelIMG、cvat

视频标注工具：handbrake，shotcut、FFmpeg

结构化数据标注工具：可添加新表或者备注方式

4、辅助软件

数据库：Redis、MySQL（MariaDB）、MongoDB、PostgreSQL

自动化安装运维工具：ansible

对象存储软件：minIO（主要用于DevOps）

文件系统软件：juiceFS（主要用于大模型训练）

私有化软件源：yum源、pip源、maven源、apt源

三、主要涉及应用与功能：

1、涉及集群：Hadoop存储计算集群、MPP存储计算集群、GPU存储计算/计算集群。

Hadoop集群可划分为：主要作为存储、主要作为计算、兼顾存储与计算三种集群。

配置可根据需求有不同倾向：（1）大容量低速存储：挂载大容量、多块机械硬盘；（2）主要用于快速计算：需要硬盘采用ssd、NVME、高速机械，大容量内存主机；（3）兼顾存储与计算：可考虑单一机型或者高性能主机与低性能主机混搭。

MPP存储计算集群：可考虑采用Hadoop底座，或专门MPP软件，推荐采用大容量内存、高速存储硬盘（预算与业务时效的平衡，速度与带宽来说：NVME硬盘>普通SSD>高速机械硬盘）。目前数据中心一般采用GPU+高性能CPU+大容量内存+sas机械硬盘，硬盘相对便宜，性能总体偏低。

GPU存储计算集群：主要场景是存储计算可一体设计使用，或优先该方式的场景，如大模型训练，高速、高吞吐、高IOPS等要求，采用GPU物理主机上安装NVME硬盘组成分布式存储，存储计算一体化，会极大提高运行效率。

GPU计算集群：主要场景是存储、计算分开管理，对大规模GPU协作无需求的场景，如10卡以内的模型训练。

2、涉及平台：Hadoop平台、DevOps平台、人工智能模型训练/推理平台、数据管理平台。

(1)Hadoop大数据平台，包含Hadoop、hive、spark等基本功能，按需安装hbase等功能。

(2)DevOps：k8s底座+minio存储+Jenkins，构成各种pipline，用于代码编译打包。

(3)人工智能训练/推理平台：基于k8s底座，训练任务采用用户启动预定义镜像或自定义开发镜像模式；推理采用准备好的程序与模型，通过k8s启动推理服务。

(4)数据管理涉及大数据集群的数据管理以及cfs、cos存储上的图片、文本、视频等数据管理。

3、数据：数据管理；数据采集（导入），数据清洗，ETL，数据入湖，数据清单管理，权限管理。

4、标注功能实现：可实现对文本文档、图片、视频、语音的标注、预标注。

5、模型：模型生成、模型存储与管理

6、推理：引入用户自定义代码+模型，提供ai服务

7、镜像：镜像生成、存储、管理。提供Hadoop集群镜像、容器自身镜像、GPU集群镜像、DevOps相关base镜像或用户自定义镜像。

8、代码：Git代码仓库管理、代码存储。

9、可拥有私有软件源：yum源、pip源、maven源、apt源，可设置按需更新、定时更新。

四、存在不足：

1、账号体系难统一，引入开源账号管理体系也不好用。

2、涉及软件多，开发运维成本高。

3、若引入硬件类型较多，运维成本增加。

原文：一种基于开源软件的完整的大数据、人工智能底座搭配方式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一种基于开源软件的完整的大数据、人工智能底座搭配方式

大数据-人工智能-大模型之类整合
复制链接

扫一扫

杨美红1986 CSDN认证博客专家 CSDN认证企业博客

码龄17年

1: 原创

57万+: 周排名

154万+: 总排名

4万+: 访问

: 等级

137: 积分

3: 粉丝

15: 获赞

1: 评论

47: 收藏

私信

关注

最新评论

一种基于开源软件的完整的大数据、人工智能底座搭配方式
CSDN-Ada助手: 恭喜用户在博客里分享了这种基于开源软件的完整的大数据、人工智能底座搭配方式！这篇博客内容非常有价值，也为读者提供了很好的参考。希望用户继续保持创作的热情，并在未来的博客中分享更多的经验和见解。如果可以，我很想看到用户深入探讨这种底座搭配方式的实际应用，以及如何在实践中解决相应的问题。感谢用户的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
在地图上绘制热力图的方法
qq_42008039: 博主想问下中心点周围的数据怎么弄得

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。