LLM小模型系列研究（01）

技术与健康

已于 2024-08-20 11:51:41 修改

阅读量969

点赞数 11

分类专栏： LLM 文章标签：机器学习人工智能

于 2024-08-20 11:51:19 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Practicer2015/article/details/141354493

版权

LLM 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

LaMini-Flan-T5–248M

团队构建了一套由现有和新建指令组成的 2.58M 条指令集。这些指令涵盖多个主题，然后使用 GPT-3.5-turbo 生成响应。

根据 Lamini 的论文，LaMini-Flan-T5-248M 在下游 NLP 任务上的表现甚至优于 LLaMa-7B。当模型尺寸较大时，LaMini-Flan-T5 与 LaMini-GPT 相当。即使在 5 亿个参数以下，LaMini-Flan-T5 系列也能产生惊人的效果。

LaMini-LM | LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

orca-mini-3b

StableLM-zephyr

Danube-1.8b-chat

MobiLlama-1B-Chat

MobiLlama 是一种 SLM 设计，它从更大的模型开始，并应用了谨慎的参数共享方案，以降低预训练和部署成本。

[https://huggingface.co/MBZUAI/MobiLlama-1B-Chat)

Qwen 0.5b

Danube3–0.5-chat

0.5b 聊天模型：小巧、快速、功能强大

h2o-danube3–500m-chat 是 H2O.ai 开发的聊天微调模型，拥有 5 亿个参数。根据Hugging Face Hub 上的模型卡，它可以在手机上本地运行，完全离线——你可以使用H2O AI Personal GPT亲自尝试。

H2O 对 Llama 2 架构进行了总共约 5 亿个参数的调整。有关详细信息，我们可以参考技术报告。团队决定使用词汇量为 32,000 的 Mistral 标记器，并将模型训练到上下文长度为 8,192 个标记

https://huggingface.co/h2oai/h2o-danube3-500m-chat

TinyLlama

TinyLlama 的目标是在 3 万亿个标记上对 1.1B Llama 模型进行预训练。

新加坡的亚洲团队。该项目目前由新加坡科技设计大学 StatNLP 研究小组的Peiyuan Zhang *、Guangtao Zeng *、Tianduo Wang和Wei Lu贡献

通过适当的优化，我们可以在“仅”90 天内使用 16 个 A100–40G GPU 🚀🚀 实现这一目标。

采用了与 Llama 2 完全相同的架构和标记器。这意味着 TinyLlama 可以插入并运行在许多基于 Llama 构建的开源项目中。此外，TinyLlama 非常紧凑，只有 1.1B 个参数。这种紧凑性使其能够满足大量需要有限计算和内存占用的应用程序的需求

一般来说，只要你有足够的 RAM，参数少于 3B 的模型可以在没有 cuda 支持的情况下运行

https://huggingface.co/TheBloke/TinyLlama-1.1B-1T-OpenOrca-GGUF

Gemma2–2B

2B 参数模型超越了 GPT-3.5（175B+ 参数）——几乎令人难以置

这款生成式人工智能拥有 26.1 亿个参数，足够小，可以在任何消费级硬件上运行
即使只使用 CPU 你也能拥有不错的速度
8k 个 token 的上下文长度使我们能够进行 RAG、上下文学习和思维链
能流利地说多种语言：英语、意大利语、法语、德语

https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q5_K_M.gguf

 wget https://huggingface.co/bartowski/gemma-2-2b-it-GGUF/resolve/main/gemma-2-2b-it-Q5_K_M.gguf -OutFile model/gemma-2-2b-it-Q5_K_M.gguf

Gemini Nano

Gemini Nano 分为两个层级，Nano 1（18 亿）和 Nano 2（32.5 亿），分别适用于低内存和高内存设备。Gemini Nano 内置于谷歌的 Pixel 8 Pro 上，它将成为一款全面增强 AI 的智能手机）。

Inference

from llama_cpp import Llama

llm = Llama( model_path='model/gemma-2-2b-it-Q5_K_M.gguf','model/gemma-2-2b-it-Q5_K_M.gguf', #n_gpu_layers=0, temperature=0.24, n_ctx=8196, max_tokens=600, repeat_penalty=1.176, stop=['<eos>'], verbose=False, )

print(llm.create_chat_completion( messages=[{'role':'user','content':'What is Science?'}], stop=['<eos>']))