之前学习+工作的AI/NLP,主要就Bert实现了大一统。再就是传统的机器学习算法也有老市场+快速等优势。FB家的FastText也好用。基本就文字→词向量→微调。考虑优化的标签平滑和知识蒸馏。
目前看LLM所能达到的成就是划时代的。学习分析下来,感觉AlphaGo具有指引作用。下围棋的结果是有输赢的,然后加强学习,AlhpaGo之类的可以快速达到相当高的成就。而到NLP领域,还是需要人工标注数据。
深度神经网络到transformer的自注意力机制,之后就是encoder端(结合上下文)和decoder端(mask掩盖下文)的不同方向。Bert就是预训练词向量,GPT就generate生成式内容。
单看OpenAI这边。GPT2.0《Language Models are Unsupervised Multitask Learners》和GPT3.0《Language Models are Few-Shot Learners》(GPT-3只训练了1轮,有1750亿参数),再就是InstructGPT,《Training Language Models to follow Instructions with Human Feedback》,13亿参数。再有文字→绘画领域,还有主代码领域的Codex,有一种说法:ChatGPT的推理能力来自代码训练。
高质量+大量的语料是大语言模型学习的内容。RLHF(Reinforcement Learning from Human Feedback)实现数据与模型训练的飞轮。