Sarashina2-8x70B：强大的日语和英语语言模型

吴脑的键客

已于 2024-11-21 10:34:57 修改

阅读量666

点赞数 14

分类专栏：人工智能文章标签：语言模型人工智能自然语言处理

于 2024-11-21 10:33:08 首次发布

本文链接：https://blog.csdn.net/weixin_41446370/article/details/143934382

版权

人工智能专栏收录该内容

604 篇文章

订阅专栏

简介

在不断发展的自然语言处理领域，大型语言模型（LLM）已成为各种应用不可或缺的工具。今天，我们将深入探讨 Sarashina2-8x70B 的世界，这是 SB Intuitions 开发的一款出色的 LLM。该模型拥有大量参数（465B）和创新的训练技术，有望彻底改变语言理解和生成任务。

在这里插入图片描述

模型概述

Sarashina2-8x70B是最先进的 LLM，拥有超过 4500 亿个参数。它是 Sarashina2-70B 模型的扩展，该模型使用稀疏上循环技术进行了上循环，详见论文 “Sparse Upcycling：Efficiently Building Mixture-of-Experts Models” (arxiv: 2212.05055) 一文中所述。这项技术可以高效地构建专家混合物模型，从而增强模型的功能。

config.json

{
  "architectures": [
    "MixtralForCausalLM"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 8192,
  "initializer_range": 0.02,
  "intermediate_size": 28672,
  "max_position_embeddings": 8192,
  "model_type": "mixtral",
  "num_attention_heads": 64,
  "num_experts_per_tok": 2,
  "num_hidden_layers": 80,
  "num_key_value_heads": 8,
  "num_local_experts": 8,
  "output_router_logits": false,
  "rms_norm_eps": 1e-05,
  "rope_theta": 10000,
  "router_aux_loss_coef": 0.001,
  "router_jitter_noise": 0.0,
  "sliding_window": null,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.40.1",
  "use_cache": true,
  "vocab_size": 102400
}