2万亿训练数据!Stable LM 2-12B加入开源队列

公*众*号AI疯人院 

4月9日,知名大型模型开源平台Stability.ai在其官网上发布了全新的类ChatGPT模型——Stable LM 2 12B。

    据了解,Stable LM 2 12B模型拥有120亿个参数,其训练数据涵盖了英语、西班牙语、德语等7种语言的2万亿个tokens。该模型提供了基础版本和指令微调版本两种选择,能够生成文本、代码等各种内容,并可作为RAG(Retrieval-Augmented Generation)的核心组件来使用。

    此外,Stability.ai还对其之前发布的Stable LM 2 1.6B模型进行了更新,尤其是在硬件需求方面进行了大幅优化。因此,这两个模型非常适合小型企业和个人开发者使用。在性能方面,它们也超越了Qwen1.5-14B-Chat、Mistral-7B-Instruct-v0.2等其他知名的开源小参数同类模型。

12B开源地址:https://huggingface.co/stabilityai/stablelm-2-12b

1.6B新版本:https://huggingface.co/stabilityai/stablelm-2-1_6b-chat

技术报告:https://arxiv.org/abs/2402.17834

在线demo:https://huggingface.co/spaces/stabilityai/stablelm-2-chat

图片

StableLM 2介绍

Stable LM 2 12B/1.6B都采用了Transformer架构,具有24层结构,并配置了32个自注意力头。这一架构的模型在预训练阶段使用了包含大约2万亿tokens的庞大且多样化的公开数据集。

这些数据集包括了多个领域,例如:

  • 学术论文数据集:如Arxiv、PubMed、S2ORC、PhilPapers等,这些数据集包含了丰富的科学研究和学术成果。

  • 图书和小说数据集:如BookCorpusOpen、PG-19、FanFics等,这些数据集则提供了广泛的文学资源。

    通过在这些数据集上的预训练,Stable LM 2 12B/1.6B能够吸收和学习到大量的知识和语言模式,从而提高其在多种自然语言处理任务中的表现。这种预训练方式使得模型能够更好地理解和生成自然语言,增强了模型的通用性和适应性。

图片

    在训练策略方面,Stability.ai采取了一些高效的技术手段来优化Stable LM 2 12B/1.6B模型的训练过程。具体来说:

  • FlashAttention-2技术:这是一种序列并行优化技术,它允许模型在训练时处理更长的上下文序列,而不会牺牲速度或增加过多的计算资源消耗。使用这种技术,Stability.ai能够以4096的上下文长度从头开始训练Stable LM 2模型,这对于提高模型的理解长距离依赖和长期记忆能力是有益的。

  • BFloat16混合精度训练:为了提高训练效率和减少内存占用,Stability.ai采用了BFloat16(Brain Float 16)格式进行混合精度训练。BFloat16是一种16位浮点数格式,它在保持足够精度的同时,相比于32位浮点数(FP32),可以减半内存使用量和提高运算速度。

  • AdamW优化器:在训练过程中,Stability.ai使用了标准的AdamW(Adaptive Moment Estimation with Weight Decay)优化器。AdamW是一种流行的优化算法,结合了Adam的自适应学习率特性和权重衰减(Weight Decay),有助于防止过拟合,并加速模型的收敛。

    通过这些训练策略的应用,Stability.ai能够有效地训练出性能强大的Stable LM 2 12B/1.6B模型,同时保证了训练的效率和模型的质量。这些策略的使用也体现了Stability.ai在深度学习模型训练方面的专业性和技术实力。

图片

    模型微调阶段,Stability.ai使用了监督微调(SFT)、直接偏好优化(DPO)和自我知识学习三种方法,对生成的文本进行排序,然后使用排序结果来调整模型的参数,使其生成更符合人类偏好的文本。

图片

    多轮对话基准测试:StableLM 2 1.6B与其他模型在MT-Bench多轮对话任务上进行了深度对比。StableLM 2 1.6B的综合得分与规模明显更大的模型如Mistral-7B和MPT-30B不相上下,在某些指标上甚至获得了更高的分数。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: dolly-v2-12b 数据集是一个用于语音识别任务的数据集,由于其广泛应用,现在网上已经有很多可供下载的途径。以下是一些途径供参考: 1. GitHub dolly-v2-12b 数据集的一份完整备份可以在 GitHub 上找到,可以直接下载或者通过 Git 命令进行克隆。 2. Kaggle kaggle 是一个以数据为基础的社区平台,提供各种数据集供用户下载。dolly-v2-12b 数据集也可以在 Kaggle 上找到并下载。 3. Google Drive 一些学者可能会将数据集上传至 Google Drive 并分享下载链接。搜寻一下相关的共享链接,即可下载得到该数据集。 需要注意的是,在下载数据集的过程中,一定要选择可信的来源,以避免下载到潜在的病毒或恶意程序。同时,最好事先重复检验文件的完整性和正确性,以确保在使用该数据集时准确可靠。 ### 回答2: Dolly-v2-12b是一个用于人脸识别和图像检索任务的数据集,涵盖了各种人物和场景的图片。要下载这个数据集,首先你需要找到合适的资源站点。可以通过搜索引擎进行查找,在网页上输入“Dolly-v2-12b下载”,就可以找到多个可供下载的资源站点。建议选择官方或知名的站点下载,以确保数据集的完整性和可靠性。其中,一些站点可能需要你注册账号或付费才能获得下载权限,需要根据自己情况选择合适的方式。另外,在下载之前,记得仔细阅读数据集的使用说明和许可协议,以确保你的研究和应用符合相关的规定。 ### 回答3: dolly-v2-12b数据集可以在互联网上找到,但如果要快速下载,最好使用百度网盘或其他云存储服务。用户可以搜索dolly-v2-12b数据集,并在搜索结果中找到可用的下载链接。在下载之前,用户应该确保所选的链接是可靠和安全的。一些学术机构或研究机构也可能提供该数据集的下载链接,这些机构通常会要求用户填写特定的表格或提交申请以获取数据集的访问权限。用户还可以考虑使用下载管理器和断点续传功能,以便在网络连接中断时恢复下载进度。总之,找到可靠的下载链接和使用高效的下载工具是从互联网上快速下载dolly-v2-12b数据集的关键。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT大头

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值