新增数据集 SDK、“关系抽取”文本标注、优化模型监控和管理｜ModelWhale 版本更新

ModelWhale

于 2024-10-08 16:10:49 发布

阅读量634

点赞数 13

文章标签：数据管理文本标注模型管理

本文链接：https://blog.csdn.net/ModelWhale/article/details/142760900

版权

ModelWhale 带来了新一轮的版本更新，期待为大家带来更优质的使用体验。

本次更新中，ModelWhale 主要进行了以下功能迭代：

数据管理：新增 mw_python_sdk 支持通过查看、下载、制作、更新数据集
文本标注：新增“关系抽取”标注，满足知识图谱构建、助力 GraphRAG 实践
模型服务应用

（1）服务监控：新增记录 TPM 和 RPM 监控指标、调用记录回溯

（2）服务应用：新增外部文件输入

（3）服务调试：新增网络环境配置

团队协作：新增我的团队，适用于科研项目组管理、研究小组协同
算力管理

（1）新增由管理员配置“成员可申请的算力”

（2）新增支持管理员监控服务“最小副本数”

智能助手：新增智谱平台接入，支持在 ModelWhale 使用智谱 AMiner、AIWorkFlow
*仅 ModelWhale 私有化

（1）新增模型 Repo（新模块）：使用 git 命令将外部模型接入平台

（2）视频标注结果：新增支持转换为 COCO、human3.6m、PoseTrack18 等满足若干开源模型训练的数据规范

（3）待标注数据接入（文本标注）：新增支持解析 json 格式语料

（4）待标注数据接入：新增从外部 API 数据连接制作平台“标注数据集”

01 数据管理：

新增 mw_python_sdk 支持通过查看、下载、制作、更新数据集

ModelWhale 支持接入企业内多源数据要素，在平台完成数据分析流程中的数据治理（包括元数据管理）、权限分发使用。

在本地或第三方平台进行数据分析时，你可以使用 SDK 操作 ModelWhale 平台内你的数据集，包括：查看、下载（无需再手动逐个下载数据集文件）。
完成数据产品的开发后，你可以使用 SDK 将成果制作为平台数据集，汇总到 ModelWhale 平台进行统一管理。你也可以将其更新至某个平台数据集。

一些代码示例如下：

（1）查看数据集

pip install mw-python-sdk==0.0.31
from mw_python_sdk import get_dataset
# 读取该数据集 id 下的文件
get_dataset(dataset._id).files

响应结果：

[DatasetFile(_id=None, key='dataset/59ad0f2e21100106622a1f0c/1724665346723_1/simple_image.png', size=None, sub_path='')]

（2）下载数据集

平台数据集详情页，也提供通过 SDK 下载的提示指引。

#import os
#os.environ["MW_TOKEN"]="设置你的token"
#os.environ["HEYWHALE_HOST"]="访问地址，默认可以不设置"
pip install mw-python-sdk==0.0.31
from mw_python_sdk import download_file
dataset_id_tmp = dataset_id
download_file(dataset_id_tmp, "simple_image.png")

（3）制作数据集

pip install mw-python-sdk==0.0.31
from mw_python_sdk import create_dataset
dataset = create_dataset("a_simple_dataset", "dataset_to_upload/", "", "mw is cool")

（4）更新数据集

pip install mw-python-sdk==0.0.31
from mw_python_sdk import upload_file
# 上传一个 README.md 文件
upload_file("README.md", "README.md", dataset_id_tmp)

02 文本标注：

新增“关系抽取”标注，满足知识图谱构建、助力 GraphRAG 实践

GraphRAG（知识图谱 + RAG）是继 RAG 之后进一步提升大模型回答精准度和正确性的重要方式：平台提供三元组标注能力，用户或组织可以通过对错综复杂的文档的数据进行有效的加工、处理、整合，将冗杂信息转化为简单、清晰的“实体-关系-实体”三元组，提取大量高质量知识及知识间关联关系，从而提升大模型在搜索阶段的效果和效率。

ModelWhale 标注工具，新增“关系抽取”的文本标注类型：支持构建满足知识图谱的“实体 - 关系 - 实体”三元组，提取高质量知识及知识间关联关系，从而提升大模型在搜索阶段的效果和效率。具体操作可参考用户手册：

数据标注：

https://www.heywhale.com/docs/org_admin/workbench/annotation.html

03 模型服务应用

ModelWhale 平台的【模型服务】功能支持将算法文件封装为 serverless 服务（Restful API）。

（1）开源大模型的部署：你可以遵循大模型提供方的指引，在 ModelWhale 平台构建依赖的运行环境后，使用平台算力进行模型服务发布。发布时，请选择为“自定义服务”类型、并勾选“生成式大模型”标签。

（2）小工具的封装（比如数据库查询、图像数据分析、统计数据预测等）：你可以将代码简单调整后，将其发布为“REST 服务”。代码示例可参考用户手册：

模型服务：

https://www.heywhale.com/docs/org_admin/workbench/model.html

（1）服务监控：新增记录 TPM 和 RPM 监控指标、调用记录回溯

ModelWhale 平台提供完备的服务监控基础设施，帮助模型开发者跟踪服务表现、评估服务性能。本期新增功能如下：

新增记录 TPM（Tokens Per Minute，每分钟输入+输出的 tokens 数量）：可用于衡量模型的推理速度、评估模型在生成文本或处理输入时的效率。注：仅“生成式大模型”支持记录 TPM。
新增记录 RPM（Requests Per Minute，每分钟可以处理的请求数量）：可用于衡量 API 或服务的吞吐量、评估模型在并发用户请求下的性能。
新增生成式大模型的调用记录：记录每次请求的输入、输出、请求时间等。
服务资源用量，支持在服务详情页监控，也支持在工作台（最近）查看统计用量。

（2）服务应用：新增外部文件输入

ModelWhale 模型服务 API 支持接入第三方平台（GUI 平台、Agent 编排平台）作为模型或 API 工具使用。你也可以在 ModelWhale 平台将其发布为网页应用（一个 Web 链接），然后将其分享给其他人使用。

模型应用除已支持选择“平台数据集”作为文件输入外，现也支持输入“外部文件”：使用服务时，支持传入“文件下载链接”作为服务推断输入。

（3）服务调试：新增网络环境配置

不同网络环境下的服务表现不同，“断网”和“不断网”的表现尤其不一致。现创建服务时已新增“网络配置”，供你选择应用场景适用的网络环境：你可以选择组织默认网络环境，也可以选择特定评估任务、比赛任务的网络环境。

04 团队协作：

新增我的团队，适用于科研项目组管理、研究小组协同

一个大科研机构内往往存在多个科研团队，人员管理、内容分享和沉淀也以这些“团队”为单位进行、由团队管理员管理自己的“小组织”。ModelWhale 数据科学协同平台支持承载上述团队管理场景：现除了支持由组织管理员在平台层面进行统一管理外，已支持由组织成员自由搭建自己的团队（比如：**科研小组、**研究小组），闭环实现自己的团队管理、团队内容分发。无需再由组织管理员操作这些小团队的创建、人员管理。

05 算力管理

ModelWhale 支持接入多种算力资源，包括 CPU、GPU、GPU 集群、HPC 集群。这些资源接入平台后，可由管理员按平台内分发单位（可用时长或资源代币）进行算力的向下分发。

（1）新增由管理员配置“成员可申请的算力”

如组织成员没有某算力的使用权限、算力可用时长不足，可在线上发起申请、由管理员审批后二次下发。现已支持由管理员配置“哪些算力”可以被成员申请，实现更严格的管理。注：如管理员不希望成员自由申请资源，可关闭【资源申请】功能。

（2）新增支持管理员监控服务“最小副本数”

管理员查看组织服务时，现已支持查看其“最小副本数”、创建者联系方式、筛选服务状态和使用资源等操作。如管理员觉得不符合预期，可以联系成员了解详情、也可以手动停止服务运行。

06 智能助手：

新增智谱平台接入，支持在 ModelWhale 使用智谱 AMiner、AIWorkFlow

ModelWhale 已和智谱达成合作，你可以在 ModelWhale 平台内使用智谱 AMiner、AIWorkFlow。以教学场景为例，你可以使用 ModelWhale 作为主平台承载虚拟实验室的课程管理（第一课堂），使用智谱作为外部学习工具（第二课堂）。

07 *仅 ModelWhale 私有化支持

（1）新增模型 Repo（新模块）：使用 git 命令将外部模型接入平台

ModelWhale 平台支持对算力、数据、模型进行统一管理和分发使用。平台原先已提供“模型库”对象存储基础设施进行模型存储，满足小模型的接入和管理场景。在大模型的浪潮下，现新增“模型 Repo”模块，支持用户使用 git 命令将外部模型接入平台，解决原先大模型难以接入的问题（比如：“模型过大”、“模型上传速度慢”、“网页上传不稳定”、“使用模型时加载速度慢”）。接入模型后，用户依然可以使用 git 对大模型本身进行版本管理，无需改变原有工作习惯。