突破万字长文输出瓶颈！清华大学开源 LongWriter-6k 数据集；7 个 CCF A 类顶会即将截稿...-CSDN博客

本文链接：https://blog.csdn.net/HyperAI/article/details/141478012

当前的长上下文大模型虽能处理海量文本的输入，但由于长输出示例的匮乏，使其在生成长篇内容时却力不从心。为解决这个问题，清华大学的研究团队构建了 LongWriter-6k 数据集，能够将大模型的最大输出窗口大小扩展至 10,000+ 字！

借助 LongWriter-6k 训练的模型，不仅在小说创作中可以生成情节跌宕起伏、篇幅超长的精彩小说，让读者沉浸在一个宏大的文学世界中；在学术研究方面，它还能够生成详尽的研究报告和论文综述，为科研人员提供丰富的参考资料。

hyper.ai 官网现已上线「LongWriter-6k 长上下文输出数据集」，还支持在线使用，下拉文章获取链接~

8 月 19 日-8 月 23 日，hyper.ai 官网更新速览：

* 优质公共数据集：10 个

* 优质教程精选：2 个

* 社区文章精选：2 篇

* 热门百科词条：5 条

* 9 月截稿顶会：7 个

访问官网：hyper.ai

公共数据集精选

1. LongWriter-6k 长上下文输出数据集

该数据集包含 6k 篇 SFT 数据，输出长度为 2k-32k 字（包括英文和中文），可支持训练 LLM，将其最大输出窗口大小扩展至 10,000+ 字。

直接使用：https://go.hyper.ai/77byR

2. EVOBC 甲骨文文字演化数据集

该数据集包含研究人员系统地从权威文献和网站收集的 6 个历史阶段的古代文字，由代表 13,714 个不同字符类别的 229,170 张图像组成。

直接使用：https://go.hyper.ai/oe5fU

3. HUST-OBS 甲骨文识别数据集

该数据集包含超 14 万幅图像，这些图像来自 3 个不同的来源，包括书籍、网站和现有数据库，是迄今为止最大的 OBS 识别和解密数据集之一。

直接使用：https://go.hyper.ai/bXxx1

4. Alpaca-Cleaned 指令微调数据集

Alpaca-Cleaned 数据集是对斯坦福大学于 2024 年发布的原始 Alpaca 数据集的清理版本。该数据集解决了原始 Alpaca 中的一些问题，比如幻觉性回答、合并指令、空输出和不一致的输入字段等，从而提高了数据的质量和一致性。

直接使用：https://go.hyper.ai/yNlAa

5. Al Medical Chatbot 医学对话数据集

这是一个为运行医学聊天机器人而设计的实验数据集，它包含 256,916 条患者与医生之间的对话。

直接使用：https://go.hyper.ai/kaGzv

6. Openstory++ 大规模图像实例数据集

Openstory++ 专为解决现有图像生成模型在长文本上下文中，难以保持实例一致性的问题而设计。它通过结合图像和文本的实例级注释，提供了一个丰富的资源，使其能够在长文本上下文中生成具有高度一致性的图像。

直接使用：https://go.hyper.ai/no3E7

7. MedTrinity-25M 大规模多模态医学数据集

MedTrinity-25M 包含了超过 2,500 万张医学图像，涵盖了 10 种成像模式，还标注了 65 种以上的疾病。此数据集不仅包含丰富的全局及局部注释，同时还在多种模态（如 CT 、 MRI、 X 光等）中整合了多层次的信息注释。该数据集将为医学图像处理、报告生成、分类和分割等多模态任务提供巨大的支持，同时推动基于医学的人工智能模型的预训练。

直接使用：https://go.hyper.ai/JCSJP

8. 1920 raider waite tarot 塔罗牌图像数据集

这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述，为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索，可用于训练模型生成塔罗牌风格的图像。

直接使用：https://go.hyper.ai/8bd2R

9. Waterloo Exploration 大规模图像质量评估数据库

该数据库包含 4,744 张原始自然图像和 94,880 张由这些原始图像创建的失真图像，可用于测试图像质量评估模型的泛化能力。

直接使用：https://go.hyper.ai/m5mhN

10. SWE-bench Verified 代码生成评估基准数据集

该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

直接使用：https://go.hyper.ai/oxOBY

更多公共数据集，请访问：

https://hyper.ai/datasets

公共教程精选

1. ComfyUl AuraFlow 文生图工作流 Demo

这个模型在 GenEval 上实现了最先进的结果，在文生图任务上拥有更高的处理效率，更好的细节呈现。该教程为使用 ComfyUI 部署 AuraFlow 文生图模型，模型和相关环境配置已经搭建完毕，一键克隆即可进行推理使用。

直接使用：https://go.hyper.ai/KpI4B

2. Whisper Web 在线语音识别工具

Whisper 基于 ML 进行语音识别，并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音，识别到的文本支持导出 TXT 和 JSON 两种文件格式，还可以直接翻译为英文。该教程是基于 GitHub 上的开源项目 Whisper Web，直接在浏览器中运行使用 Whisper。

直接使用：https://go.hyper.ai/N3iwm

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD教程】，入群探讨各类技术问题、分享应用效果~