关于大模型领域迁移相关工作的记录

最近做了一些大模型方面的研究 ,资料、开源模型源源不断,特此记录及近况更新。

llama

  • 大小:7B-130B
  • 贡献者:Meta

llama模型是开源的,但需要发送申请,hugging face上有贡献者发布的hf转换模型(作为学术探讨,商业利益相关暂时不论,下文同)。

斯坦福在这之上最先使用了self-instruction生产的52k语料,使用lora技术微调开源了alpaca,据此经验,一系列羊驼模型出现,比如luotuo、驼铃等。这也是我觉得生态比较好的开源模型。

bloom

  • 大小:7B-176B
  • 贡献者:bigsicence

链家科技基于bloom进行指令微调开源了BELLE,同时也开源了一些中文数据集。

GLM

  • 大小:6B-130B
  • 贡献者:清华大学

开源了支持中英双语的对话语言模型ChatGLM-6B,以及基底模型GLM

在中文对话和下游应用上,截至3.31是我目前测过效果最好的chat模型。基于chatglm-6B,还有许多人贡献了不少微调及应用代码,比如:

  • ChatGLM-Tuning: 基于 LoRA 对 ChatGLM-6B 进行微调。类似的项目还包括 Humanable ChatGLM/GPT Fine-tuning | ChatGLM 微调
  • langchain-ChatGLM:基于本地知识的 ChatGLM 应用,基于LangChain
  • ChatGLM-Finetuning:基于ChatGLM-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning等,并进行实验效果对比。
  • InstructGLM:基于ChatGLM-6B进行指令学习,汇总开源中英文指令数据,基于Lora进行指令数据微调,开放了Alpaca、Belle微调后的Lora权重,修复web_demo重复问题。

目前笔者参考第一个链接基于lora对chatglm-6b进行微调用于信息抽取任务

  • 尝试了单一指令(每个数据集一种prompt),数据量大概是3000+条,NER的验证效果大概在60-80,同时基于微调模型测试原先的通用能力,发现存在历史性遗忘现象,通用能力表现得比原先的版本更差。
  • 基于chatgpt以及人工制作了100条不同的信息抽取指令(只做NER),发现抽取效果有略微提升但效果不大(基于十多条的主观测试),但通用能力要比上一个实验好很多,几乎保持和原先版本一样的水平。
  • 基于gpt4的52k数据集微调chatglm-6B,发现微调前后变化不大,盲猜一下可能chatglm也用过alpaca翻译的中文语料微调过?

中文tokernize

粗略的按照以下分类统计了三个预训练模型的词表,所以为什么chatglm对中文的支撑效果好,看词表也能略知一二了。

模型英文中文标点其他合计
llama-7b-hf241207001167599031977
BELLE-7B-2M89974285851827130223250609
chatglm-6b637756134514693660130249

欢迎交流

  • 什么时候中文模型可以多开源几个好用的
  • 基于领域迁移、信息抽取方面的经验和交流
  • else
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值