HashML——让更多企业读懂数据，用好AI

最新推荐文章于 2024-08-16 18:13:47 发布

酷克数据HashData

最新推荐文章于 2024-08-16 18:13:47 发布

阅读量106

点赞数

文章标签：人工智能数据分析

本文链接：https://blog.csdn.net/m0_54979897/article/details/134574535

版权

随着大模型技术的兴起，数据智能和AI正成为企业数字化转型的新驱动力。

酷克数据研发推出的新一代高级分析和数据科学工具箱HashML自推出以来，受到了众多企业和技术爱好者的广泛关注。在最近的直播中，我们邀请了HashData的数据科学工程师，为大家讲解HashML实现原理和技术逻辑，并进行了用例演示。

产品简介

作为一款新一代高级分析和数据科学工具箱，HashML致力于大幅降低AI技术应用门槛，为数据科学家、数据工程师、AI应用开发者构建AI应用提供便利。

HashML不止提供从数据查询处理、高级分析到机器学习、深度学习的一站式多层次数据分析和AI能力，针对近期市场高度关注的大语言模型，也提供了从高质量数据挖掘、模型微调到模型部署和推理的全流程支持。

图1：HashML主要功能概览

HashML提供了数据访问、模型算法、模型部署三大功能：

数据访问

HashML可随HashData云数仓一起安装部署，做到开箱即用。HashML所有模块API的设计，都力求标准化，与数据科学社区流行的第三方库保持一致，最大程度保障易用性。同时，HashML提供了Python和SQL两种语言支持，无论是数据科学社区的Python用户，还是数据库社区的SQL用户，都可以低门槛地上手使用。

模型算法

HashML内置了对多种经典机器学习算法，以及PyTorch等主流深度学习框架和算法支持。此外，HashML也允许用户根据需要定制开发新算法。通过对算法开发框架的精心封装，用户只需关注网络结构的定义和实现，用少量代码就能完成新算法的开发和引入。针对当下热门的大语言模型技术，HashML提供了对大语言模型的支持，包括模型微调以及知识增强的大语言模型应用开发。HashML广泛支持当前业界主流的开源大语言模型，包括ChatGLM、Baichuan、LLaMA-2、Qwen等，简化模型定制的工作量。

模型部署

HashML继承了HashData的云原生优势，从模型训练到模型部署都可以做到按需弹性伸缩。在模型部署的层面，HashML提供了弹性可伸缩的模型部署和在线推理功能，旨在简化部署工作，并根据服务负载动态调整模型实例的数量。无论是机器学习模型、深度学习模型，还是大语言模型，都可以实现多机多卡分布式处理，用户只需通过简短的几行代码就能够完成一个服务的部署。基于HashML，用户可以非常方便地实现百亿级参数大语言模型的私有化部署，在客户私有环境内实现模型微调和智能应用开发，满足敏感数据的安全与合规要求。

产品特性

分布式并行处理数据

数据并行和模型并行是分布式深度学习中常用的并行计算策略，可以加速训练过程，增加对大规模数据和模型的处理能力。

图2：基于HashML的分布式并行处理数据流程示意图

如上图所示，HashML定义了数据模块，可以帮助开发者高效地完成数据读写、数据分析、数据处理等各种功能。这些功能对于开发机器学习、深度学习模型至关重要，可以高效快捷地完成数据清洗、特征提取、特征变换、样本生成等一系列任务。基于封装良好的编程接口，用户只需要关注 format_prompt 和 tokenize 数据处理逻辑的实现，仅需少量的代码开发，就可以由HashData计算引擎以分布式并行处理的方式完成计算过程，大大简化了开发者的工作量。

图3：基于HashML进行分布式并行数据处理的代码示例

丰富的机器学习算法

为了满足各种应用场景，HashML内置了包括Logistic Regression、Random Forest、SVM、XGBoost、LightGBM等经典机器学习算法。通过对算法开发框架精心封装，用户在充分理解算法原理的基础上，只需关注 fit 和 batch predict 网络结构的定义和实现，仅用少量代码就能完成新算法的开发和引入。新算法开发完成后，可以自动具备HashML所提供的分布式并行训练和推理能力。

图4：基于HashML的机器学习算法代码示例

在训练阶段，用户先从 HashML 的模型库中导入 XGBoost 模块，再传入数据库的信息去构建 XGB 对象，接下来调用fit 方法传入训练的数据以及所需要参数，就可以开启模型训练。

自定义神经网络模型

HashML通过引入多种主流的深度学习框架（如PyTorch、TensorFlow、Paddle 等），能够支持各种深度学习算法。通过对深度学习的模型训练推理进行封装，用户可在此基础上轻松完成神经网络模型的搭建工作。以PyTorch 为例，用户只需定义网络结构和 MLP 模型，就可以调用fit方法传入相关参数，对模型进行训练，整个过程中用户只需要专注于模型结构的实现即可，使得工作量大幅降低。

便捷高效模型微调

模型微调可以让大语言模型能够更加适应当前的业务场景，是大语言模型落地非常重要的一个环节。HashML引入了参数高效的微调(PEFT)方法，使用较少的参数来提高模型的微调效率和性能，在单张消费级显卡即可实现模型微调，达到与全量参数(Full Parameter)微调相当的效果，而新增checkpoint通常只有几十到几百MB，大幅降低计算和存储成本。

图5：基于HashML的便捷高效模型微调代码示例

向量知识库的构建与查询

向量知识库是HashML 工具箱当中一个非常重要的组成部分，它提供了一种高效的方式来存储和检索大规模向量化知识，主要应用于基于本地的知识库的智能问答任务。

基于 HashML 的 embedding 服务，可以将文本、图像等非结构化数据转化成向量表示，同时用户可以根据自身业务的需要去自定义 embedding 模型，提高知识库的质量和效果。

图6：HashML向量知识库构建流程示意图

向量知识库模块还提供了处理服务请求功能。当用户发起请求的时候，向量知识库模块会将查询内容转化为向量的表征，然后再与知识库中的向量进行相似度计算，实现内容的检索和推荐功能。HashML 对向量知识库进行了封装，用户仅需几行代码就可以完成整个向量知识库的构建以及查询功能。

应用案例

对话式智能数据查询分析ChatData

ChatData主要帮助对SQL语言不熟悉的用户，能够通过自然语言对数据库进行查询和分析，其背后的核心技术是text to SQL。

为了提升大语言模型的SQL能力，HashML研发团队对模型进行了微调，并针对每个评估样本构造了一个由若干数据表构成的数据库，每张数据表都包含若干条数据记录。对于每个评估样本，分别执行Ground-Truth SQL和生成的SQL，通过检验生成SQL的可执行度和比对查询结果的一致性，判断生成SQL的正确性，最终统计整个评估集的准确率。评估结果显示，HD-SQL-LLaMA2在不同难度的评估样本集上均表现良好，13B模型准确率接近82%，34B模型准确率超过88%。

检索增强的智能问答ReQA

通用大模型在应用于特定领域时普遍存在回答不精准的现象。针对这一问题，HashML可以基于大语言模型，快速搭建面向专业领域的的智能问答系统（ReQA）。

在ReQA中，企业通过调用本地部署的 embedding 服务将自有的知识库（包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ等）进行向量化，并存放到HashData形成向量知识库。当回答用户提问时，通过检索向量知识库获得相关信息，作为上下文和问题一起提交给大语言模型，这样大语言模型就能够生成精准的回答，从而有效解决困扰大语言模型的生成“幻觉”问题。ReQA的典型用例包括智能客服、销售助手、文档阅读助手等，在企业有着非常广泛的应用场景。

展望未来，以大语言模型为代表的AI技术将不断融入各行各业，改变用户与企业产品和服务之间的交互方式。

HashData推出的AI开发工具箱HashML，以简单易用、算法丰富、性能卓越的功能，帮助企业更高效地构建AI应用，更充分地释放数据价值，加速企业迈向AI时代。

酷克数据HashData

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HashML——让更多企业读懂数据，用好AI

HashData推出的新一代高级分析和数据科学工具箱HashML，以简单易用、算法丰富、性能卓越的功能，帮助企业更高效地构建AI应用，更充分地释放数据价值，加速企业迈向AI时代。
复制链接

扫一扫