关于ChatGPT(一)

之前学习+工作的AI/NLP,主要就Bert实现了大一统。再就是传统的机器学习算法也有老市场+快速等优势。FB家的FastText也好用。基本就文字→词向量→微调。考虑优化的标签平滑和知识蒸馏。

目前看LLM所能达到的成就是划时代的。学习分析下来,感觉AlphaGo具有指引作用。下围棋的结果是有输赢的,然后加强学习,AlhpaGo之类的可以快速达到相当高的成就。而到NLP领域,还是需要人工标注数据。

深度神经网络到transformer的自注意力机制,之后就是encoder端(结合上下文)和decoder端(mask掩盖下文)的不同方向。Bert就是预训练词向量,GPT就generate生成式内容。

单看OpenAI这边。GPT2.0《Language Models are Unsupervised Multitask Learners》和GPT3.0《Language Models are Few-Shot Learners》(GPT-3只训练了1轮,有1750亿参数),再就是InstructGPT,《Training Language Models to follow Instructions with Human Feedback》,13亿参数。再有文字→绘画领域,还有主代码领域的Codex,有一种说法:ChatGPT的推理能力来自代码训练。

高质量+大量的语料是大语言模型学习的内容。RLHF(Reinforcement Learning from Human Feedback)实现数据与模型训练的飞轮。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

符小东

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值