想要学习大语言模型?这些开源模型带你轻松入门!(附论文和代码)

TransformerXL就像是Transformer的加强版,专门为了处理那些长篇大论的文本而设计的,它会把把文本切成一段段的,然后让这些段落之间能记住彼此的信息,还有一种特别的方式来理解单词之间的位置关系。它训练了好几种语言,用了大量的文本数据,参数有高达1760亿个!一种预训练语言模型方法,这个模型用了一种特别的办法,叫做广义回归预测,这样它就能像我们人类一样,在理解文本的时候既看前面的内容,也看后面的内容,还借鉴了Transformer-XL模型的思路,所以它处理双向文本信息的能力超强。
摘要由CSDN通过智能技术生成

要说现在人工智能界最火的东西,那大语言模型肯定榜上有名,这可不只是技术上的小花招,它们真的能开启新世界的大门,让咱们想到的事情都能变成现实。

入门级

GPT-2

论文:Language Models are Unsupervised Multitask Learners

刚开始接触大语言模型的话,OpenAI推出的GPT-2小模型版,比如那个117M参数的,是个不错的起点。这类模型对电脑配置要求没那么高,比较容易上手,就像玩游戏先从简单级别开始一样,摸索这些小模型可以帮你逐渐搞懂大语言模型的套路,为将来挑战更高级别的模型做好准备。

DistilBERT

论文:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

它就像是BERT的迷你版,在把BERT的主要特点都保留下来的同时还变得更小巧,速度也快了不少。如果你是新手或者已经有点基础,想进一步弄明白Transformer和BERT是怎么回事,DistilBERT就挺合适的。

图片

</

  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值