用“万卷·丝路”数据集打造阿拉伯语版DeepSeek(附免费算力与教程)

在人工智能蓬勃发展的当下,大语言模型(LLMs)已成为推动自然语言处理领域前进的核心力量。然而,通用大模型在面对特定语言和专业领域时,往往难以满足精准需求。低秩自适应(LoRA)技术作为大模型微调的创新利器,正引领着行业变革。它以高效、灵活的优势,在不改变原始模型架构的基础上,通过极小的计算成本实现显著的性能提升。OpenDataLab联合和鲸社区举办“大模型小语种方向Lora微调workshop”本次 Workshop 将深入剖析 LoRA 技术的原理,从理论根源揭示其强大的适应性和优化能力,让参与者深刻理解这一前沿技术如何为大模型微调注入新活力,在小语种领域发挥独特价值。

本次大模型Lora微调workshop,使用 OpenDataLab“万卷・丝路 2.0” 语料库中的数据集作为重要数据支撑,将深入探索LoRA 技术对DeepSeek模型进行小语种专业领域的微调,涵盖了数据准备、数据处理、模型优化、训练策略、评估调优等关键环节,帮助学习者掌握大模型微调的实践技能。

教程、工具、模型、数据、导师……所需资源统统已备好,现在报名,立马免费上手学习,动手微调属于你的特色小语种大模型, AI新手、小白友好,快上车吧!

图片


Lora微调效果抢先看

(特指本次活动中的任务)

微调前

大模型无法生成阿拉伯语相关文本

prompt1

图片

prompt2

图片

prompt3

图片

微调后

大模型可以生成阿拉伯语相关文本

图片

图片

参与本次workshop,你将获得:

  • 理解LoRA微调技术的原理和优势

  • 掌握大规模语言数据的处理和准备方法

  • 熟悉使用LoRA进行模型微调的完整流程

  • 学会评估和优化微调模型的性能

  • 能够独立完成特定领域的模型微调任务

 · 活动使用数据集 · 

OpenDataLab “万卷・丝路 2.0” 语料库

OpenDataLab 是中国大模型语料数据联盟开源数据服务指定平台,为大模型提供高质量的开放数据集。其中“万卷・丝路 2.0” 语料库具备以下多语言、大规模、多模态、高质量的特点:

  • 语种数量扩充:在阿拉伯语、俄语、韩语、越南语、泰语 5 个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等 3 个稀缺语料数据,极大丰富了语言种类资源。

  • 数据模态、总量全面升级:在纯文本数据基础上,新增图片 - 文本、音频 - 文本、视频 - 文本、特色指令微调 SFT 四大模态数据,覆盖多模态研究全链路;整体数据总量超过 1150 万条,音视频时长超过 2.6 万小时,充分满足多种研究任务的需求。

  • 超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合过滤算法与当地专家人工精细化地标注质检,“万卷・丝路 2.0”已成为覆盖多模态、多领域的大规模高质量数据集,含 20 余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,为开发者提供强大助力。

其中图片-文本累计开源超过2M条; 音频-文本开源超过1600小时; 视频-文本开源超过16k小时; SFT数据开源184k条。

“万卷·丝路”多语言语料库链接:https://opendatalab.com/?industry=14865&sort=all

* 本次活动所需阿拉伯语数据已准备好,无需下载;如果你想获取更多语种数据,可访问“万卷·丝路”语料库获取。微调更多类型的大模型,解锁更多小语种任务玩法,“万卷·丝路”等你探索~

 · 导师介绍 · 

Tan,广州大学计算机科学与技术专业人工智能方向硕士研究生,深度参与三篇 SCI 论文的撰写工作,在算法研究与实践领域积累了极为丰富的经验,具备深厚的专业素养与前沿的科研视野 。

 · 学习大纲 · 

1. 大模型微调方法简介

常见的微调方法

什么是大模型微调

LoRa微调技术概述

2. 阿拉伯语专业领域大模型 LoRA 微调实战

数据清洗

数据转换

数据集构建

环境搭建

LoRa微调步骤

型评估与优化

模型优化技巧

3. 作业题

尝试不同的LoRA配置参数,对比性能差异

设计并实现自定义的评估指标

将微调方法应用到俄语

 · 参与信息 · 

报名(任选一种)

网页链接>>https://www.heywhale.com/u/b15bb1

时间节点

4.11开始:查看教案,在线运行调试

5.12 12:00 前:完成作业、提交

5.14 15:00 讲解交流会

参与步骤

● STEP1点击报名

图片

● STEP2点击学习材料链接

图片

● STEP3:点击教案

图片

● STEP4:点击右上角运行

图片

● STEP5运行代码学习

图片

● STEP6完成作业,参加讲解会

图片

以上就是本次教程分享,诚邀您扫码提交“万卷·丝路”数据集使用反馈。您的建议将支持“万卷·丝路”多语言多模态语料库成为更质量的AI基础设施,助力全球开发者构建跨语言智能工具与应用,以人工智能赋能高质量共建“一带一路”。“万卷·丝路”开发者使用反馈https://www.wjx.cn/vm/hAxkUG0.aspx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值