LoveSeven.Lin-CSDN博客

原创 LLM之GLM/ChatGLM系列

与其他大模型如GPT-3，OPT-175B，BLOOM-176B模型相比，GLM-130B的一个显著优势就是在进行INT4量化后，模型的性能没有收到很大损害，究其原因在于GLM-130B模型的参数分布相对较窄，可以用更少的字节数表示出全部的权重分布，因此在进行INT4量化时能够在保持相对多的性能，并且通过实验观察到INT4和FP16版本之间的差距随着GLM模型尺寸的扩大而进一步缩小，更进一步表现GLM模型在量化方面的天然优势。上述架构的调整带来的收益是模型的上下文长度变大，从2K-->128K。

2024-07-17 01:20:35 1724

原创 LLaMA:开放高效的基础语言模型

本文介绍了LLaMA，这是一个包含从7B到65B大小的模型的集合。本文在万亿个Tokens上训练了模型，并且在不使用任何私有数据集的情况下达到了较好的效果。特别地，在绝大多数榜单上，LLaMA-13B模型的效果超过了GPT3(175B),LLaMA- 65B的效果与Chinchilla-70B、PaLM-540B具有可比性。

2023-08-02 22:09:34 264

原创中文大模型评估基准：C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

不同的LLM在简单场景（如简单聊天）下的表现可能是差不多的，真正体现不同模型之间差距的应该是比较复杂的任务场景，因此需要构建一个复杂全面的评估基准C-Eval。

2023-07-17 11:15:54 3947

原创服务器/mac m1配置python环境

本文主要介绍怎么在服务器Linux环境和Mac m1芯片环境下配置深度学习环境

2023-07-07 16:37:42 1186

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 LLM之GLM/ChatGLM系列

原创 LLaMA:开放高效的基础语言模型

原创 中文大模型评估基准：C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

原创 服务器/mac m1配置python环境

空空如也

空空如也

原创中文大模型评估基准：C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

原创服务器/mac m1配置python环境