当前的长上下文大模型虽能处理海量文本的输入,但由于长输出示例的匮乏,使其在生成长篇内容时却力不从心。为解决这个问题,清华大学的研究团队构建了 LongWriter-6k 数据集,能够将大模型的最大输出窗口大小扩展至 10,000+ 字!
借助 LongWriter-6k 训练的模型,不仅在小说创作中可以生成情节跌宕起伏、篇幅超长的精彩小说,让读者沉浸在一个宏大的文学世界中;在学术研究方面,它还能够生成详尽的研究报告和论文综述,为科研人员提供丰富的参考资料。
hyper.ai 官网现已上线「LongWriter-6k 长上下文输出数据集」,还支持在线使用,下拉文章获取链接~
8 月 19 日-8 月 23 日,hyper.ai 官网更新速览:
* 优质公共数据集:10 个
* 优质教程精选:2 个
* 社区文章精选:2 篇
* 热门百科词条:5 条
* 9 月截稿顶会:7 个
访问官网:hyper.ai
公共数据集精选
1. LongWriter-6k 长上下文输出数据集
该数据集包含 6k 篇 SFT 数据,输出长度为 2k-32k 字(包括英文和中文),可支持训练 LLM,将其最大输出窗口大小扩展至 10,000+ 字。
直接使用:https://go.hyper.ai/77byR
2. EVOBC 甲骨文文字演化数据集
该数据集包含研究人员系统地从权威文献和网站收集的 6 个历史阶段的古代文字,由代表 13,714 个不同字符类别的 229,170 张图像组成。
直接使用:https://go.hyper.ai/oe5fU
3. HUST-OBS 甲骨文识别数据集
该数据集包含超 14 万幅图像,这些图像来自 3 个不同的来源,包括书籍、网站和现有数据库,是迄今为止最大的 OBS 识别和解密数据集之一。
直接使用:https://go.hyper.ai/bXxx1
4. Alpaca-Cleaned 指令微调数据集
Alpaca-Cleaned 数据集是对斯坦福大学于 2024 年发布的原始 Alpaca 数据集的清理版本。该数据集解决了原始 Alpaca 中的一些问题,比如幻觉性回答、合并指令、空输出和不一致的输入字段等,从而提高了数据的质量和一致性。
直接使用:https://go.hyper.ai/yNlAa
5. Al Medical Chatbot 医学对话数据集
这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。
直接使用:https://go.hyper.ai/kaGzv
6. Openstory++ 大规模图像实例数据集
Openstory++ 专为解决现有图像生成模型在长文本上下文中,难以保持实例一致性的问题而设计。它通过结合图像和文本的实例级注释,提供了一个丰富的资源,使其能够在长文本上下文中生成具有高度一致性的图像。
直接使用:https://go.hyper.ai/no3E7
7. MedTrinity-25M 大规模多模态医学数据集
MedTrinity-25M 包含了超过 2,500 万张医学图像,涵盖了 10 种成像模式,还标注了 65 种以上的疾病。此数据集不仅包含丰富的全局及局部注释,同时还在多种模态(如 CT 、 MRI、 X 光等)中整合了多层次的信息注释。该数据集将为医学图像处理、报告生成、分类和分割等多模态任务提供巨大的支持,同时推动基于医学的人工智能模型的预训练。
直接使用:https://go.hyper.ai/JCSJP
8. 1920 raider waite tarot 塔罗牌图像数据集
这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述,为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索,可用于训练模型生成塔罗牌风格的图像。
直接使用:https://go.hyper.ai/8bd2R
9. Waterloo Exploration 大规模图像质量评估数据库
该数据库包含 4,744 张原始自然图像和 94,880 张由这些原始图像创建的失真图像,可用于测试图像质量评估模型的泛化能力。
直接使用:https://go.hyper.ai/m5mhN
10. SWE-bench Verified 代码生成评估基准数据集
该基准是对现有 SWE-bench 的改进版本(子集),旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。
直接使用:https://go.hyper.ai/oxOBY
更多公共数据集,请访问:
https://hyper.ai/datasets
公共教程精选
1. ComfyUl AuraFlow 文生图工作流 Demo
这个模型在 GenEval 上实现了最先进的结果,在文生图任务上拥有更高的处理效率,更好的细节呈现。该教程为使用 ComfyUI 部署 AuraFlow 文生图模型,模型和相关环境配置已经搭建完毕,一键克隆即可进行推理使用。
直接使用:https://go.hyper.ai/KpI4B
2. Whisper Web 在线语音识别工具
Whisper 基于 ML 进行语音识别,并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音,识别到的文本支持导出 TXT 和 JSON 两种文件格式,还可以直接翻译为英文。该教程是基于 GitHub 上的开源项目 Whisper Web,直接在浏览器中运行使用 Whisper。
直接使用:https://go.hyper.ai/N3iwm
💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD教程】,入群探讨各类技术问题、分享应用效果~
社区文章精选
1. 抗击化疗耐药性与肿瘤复发!山东大学研究团队用 AI 构筑乳腺癌干细胞的有力防线
近日,山东大学吕海泉、孙蓉、张凯及山西医科大学梅齐,联合螺旋矩阵公司等研究团队,取得了突破性进展,运用机器学习技术,基于 mRNA 的分析,成功开发了一种评估原发性乳腺癌患者样本中癌症干细胞特性的新方法 BCSC signature。本文是对研究论文的详细解读与分享。
查看完整报道:https://go.hyper.ai/SPAjK
2. 上海交大周冰心博士:锚定稀缺生物数据挑战,图神经网络重塑蛋白质理解与生成
在上海交通大学 AI for Bioengineering 暑期学校中,上海交通大学周冰心博士以「图神经网络与蛋白质结构表征」为主题,向大家分享了图神经网络的定义、优势、及其在蛋白质预测与生成等领域的前沿应用。本文是周冰心博士分享的精华实录。
查看完整报道:https://go.hyper.ai/GjXi5
3. 入选 ACL2024 主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言
浙江大学研究团队提出 InstructProtein,利用知识指令对齐蛋白质语言与人类语言,展示了将生物序列整合到大型语言模型的能力。本文是对研究论文的详细解读与分享。
查看完整报道:https://go.hyper.ai/GjXi5
热门百科词条精选
1. 配对 t 检验 Paired t-Test
2. 倒数排序融合 RRF
3. 帕累托前沿 Pareto Front
4. 变分自编码器 VAE
5. 数据增强 Data Augmentation
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
https://go.hyper.ai/wiki
9 月截稿顶会
9 月 2 日
8:00:00
VLDB 2025
9 月 5 日
19:59:59
USENIX Security
2025
9 月 13 日
19:59:59
ESEC / FSE 2025
9 月 13 日
19:59:59
CHI 2025
9 月 18 日
14:59:59
FAST 2025
9 月 19 日
19:59:59
IEEE VR 2025
9 月 20 日
11:59:59
NSDI 2025
一站式追踪人工智能学术顶会:https://go.hyper.ai/event
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!
关于 HyperAI超神经 (hyper.ai)
HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1300+ 公开数据集提供国内加速下载节点
* 收录 400+ 经典及流行在线教程
* 解读 100+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅:
https://hyper.ai/
最后推荐一个「创作者激励计划」,感兴趣的小伙伴扫码即可参与!
往期推荐