轻量级 AI 革命：Phi-3.5 小模型现可一键 input！浙大领头开源多模态基准上线，含 8 大类别图像问答

最新推荐文章于 2024-09-13 19:41:31 发布

OpenBayes

最新推荐文章于 2024-09-13 19:41:31 发布

阅读量733

点赞数 20

分类专栏：资源上新文章标签：人工智能深度学习语言模型机器学习大模型数字人自然语言处理

本文链接：https://blog.csdn.net/OpenBayes/article/details/141823245

版权

资源上新专栏收录该内容

6 篇文章 0 订阅

订阅专栏

公共资源速递

This Weekly Snapshots ！

5 个数据集：

* DeepFashion2 服饰数据集

* Camvid 驾驶标签视频数据集

* Llama3.1-2k 日常对话数据集

* FADE 建筑物周围坠落物体检测数据集

* Multimodal Self instruct 多模态基准数据集

2 个模型：

* LongWriter-glm4-9b

* Phi-3.5-mini-instruct

3 个教程：

* 一键部署 LongWriter-glm4-9b

* MinerU 一站式数据提取工具

* MuseV + MuseTalk 分分钟实现高质量数字人制作

访问官网立即使用：openbayes.com

公共数据集

1. DeepFashion2 服饰数据集

DeepFashion2 包括 80.1 万个服装类目图片，每个类目都有丰富的标注，如 style, scale, viewpoint, occlusion, bounding box, dense landmark, mask。此外它还包含 87.3 万个 commercial- consumer 服装对，适用于衣物检测、姿态估计、分割及检索等任务。

* 直接使用：

https://go.openbayes.com/1whbI

2. Camvid 驾驶标签视频数据集

Camvid Dataset 是一个驾驶标签视频数据集，其包含 700 张像素级别的语义分割和图像分割的图片，提供了超过 10 分钟的高质量 30Hz 镜头，可用于语义分割、目标检测、场景解析等计算机视觉任务。

* 直接使用：

https://go.openbayes.com/pVUPT

3. Everyday conversations Llama3.1-2k 日常对话数据集

此数据集包含由 Llama-3.1-70B-Insturct 生成的 2.2k 个多轮会话，所有的对话都以 1 句问候语开始，选择的主题涵盖日常主题和基础科学，包括：20 个日常话题，每个话题有 100 个子话题；43 个小学科学主题，每个主题有 10 个子主题。

* 直接使用：

https://go.openbayes.com/JJWKM

4. FADE 建筑物周围坠落物体检测数据集

FADE 数据集包含 1,881 个视频，涵盖 18 个场景、8 种不同类别的坠落物体、4 种不同的天气条件以及 4 种视频分辨率。该数据集的创建是为了解决高楼层坠落物体对行人可能造成严重伤害的问题。

* 直接使用：

https://go.openbayes.com/oL0rD

5. Multimodal Self instruct 多模态基准数据集

数据集共包含 11,193 个带有相关问题的抽象图像，涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和 2D 平面图等 8 大类别，此外还有额外的 62,476 条数据用于微调模型。

* 直接使用：

https://go.openbayes.com/HMyNO

公共模型

1. LongWriter-glm4-9b

该模型基于 GLM-4-9B 进行了 SFT 微调和 DPO 对齐，能够生成超过 10,000 字/词连贯文本的能力。

* 直接使用：

https://go.openbayes.com/DRIrt

2. Phi-3.5-mini-instruct

该模型拥有 38 亿个参数，支持 128k tokens 上下文长度。Phi-3.5-mini 使用 512个H100-80G GPU，在 10 天内对 3.4 万亿个 tokens 进行了训练。Phi-3.5-mini 非常适合在内存或算力受限的设备上使用，虽然内存有限但推理能力不减，可以完成代码生成、数学问题的解决和逻辑推理等任务。

* 直接使用：

https://go.openbayes.com/36GiH

公共教程

1. MinerU 一站式数据提取工具

MinerU 是一个开源的 PDF 转换工具。它专门设计用于将包含图片、公式、表格、脚注等复杂多模态 PDF 文档转化为清晰、易于分析的 Markdown 格式，支持 176 种语言的准确识别。模型与环境已经部署完毕，根据教程指引即可使用大模型进行推理生成。

* 在线运行：

https://go.openbayes.com/AV81h

2. 一键部署 LongWriter-glm4-9b

LongWriter 是清华大学开发的一个开源项目，模型能够生成超过 10,000 字的长篇内容，适用于故事创作、学术写作和详细报告等多种应用场景。该教程为模型一键部署 Demo，只需克隆并启动该容器，直接复制生成的 API 地址，即可对模型进行推理体验。

* 在线运行：

https://go.openbayes.com/h1aRU

3. 教程上新 | 青岛小哥焦恩俊版二郎神来袭，MuseV + MuseTalk 分分钟实现高质量数字人制作！

使用传统的数字人训练方案生成一个高质量的数字人，常常需要大量的时间和算力资源，同时对训练素材的要求也较高。MuseV 和 MuseTalk 的出现为数字人领域带来了新的突破，使用 MuseV 生成数字人视频后，再使用 MuseTalk 实现唇形和音频的同步，短短几分钟内即可实现完整的数字人制作。均已上线至 OpenBayes 的公共教程模块，一键克隆即可在线运行！

* MuseV：

https://go.openbayes.com/7Qs1v

* MuseTalk：

https://go.openbayes.com/plbE3

以上就是小贝上周在 OpenBayes 的全部更新内容啦~