自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 LLM之GLM/ChatGLM系列

与其他大模型如GPT-3,OPT-175B,BLOOM-176B模型相比,GLM-130B的一个显著优势就是在进行INT4量化后,模型的性能没有收到很大损害,究其原因在于GLM-130B模型的参数分布相对较窄,可以用更少的字节数表示出全部的权重分布,因此在进行INT4量化时能够在保持相对多的性能,并且通过实验观察到INT4和FP16版本之间的差距随着GLM模型尺寸的扩大而进一步缩小,更进一步表现GLM模型在量化方面的天然优势。上述架构的调整带来的收益是模型的上下文长度变大,从2K-->128K。

2024-07-17 01:20:35 1724

原创 LLaMA:开放高效的基础语言模型

本文介绍了LLaMA,这是一个包含从7B到65B大小的模型的集合。本文在万亿个Tokens上训练了模型,并且在不使用任何私有数据集的情况下达到了较好的效果。特别地,在绝大多数榜单上,LLaMA-13B模型的效果超过了GPT3(175B),LLaMA- 65B的效果与Chinchilla-70B、PaLM-540B具有可比性。

2023-08-02 22:09:34 264

原创 中文大模型评估基准:C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

不同的LLM在简单场景(如简单聊天)下的表现可能是差不多的,真正体现不同模型之间差距的应该是比较复杂的任务场景,因此需要构建一个复杂全面的评估基准C-Eval。

2023-07-17 11:15:54 3947

原创 服务器/mac m1配置python环境

本文主要介绍怎么在服务器Linux环境和Mac m1芯片环境下配置深度学习环境

2023-07-07 16:37:42 1186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除