1.自然语言处理
分类,机器翻译,情感分析,智能客服,摘要与阅读理解
我们语言能力的学习源于生活中的点点滴滴,一次对话,一次阅读都是学习
2.培养模型的学习能力
需要特定的任务和标签吗?每一次对话难道都对应了标准答案吗?不是的
更重要的是训练阅读能力,学习能力,理解能力,只需要给模型阅读资料即可
所谓阅读资料,就是咱们人类的文本数据,小说,新闻,电影等都是可以的
所以,我们现在需要模型具备的是语言理解能力,而是不是分类那种专项技能
3.如何来培养模型的学习能力呢?
BERT系(五岳剑派)完形填空
GPT系(魔教) 一个个回归,不断的自回归
4.NLP究竟拼的是什么
训练非常吃算力
拼网络结构,损失函数,还是各种训练技巧呢?
从目前NLP比较核心的模型来看,主要拼的是数据量和参数量
每天会听上万的文字
2017,2022,2023,2100
我们需要用提供好的预训练模型完成我们的任务,站在巨人的肩膀上前进
5.如何开始NLP呢?
NLP不再需要传统方法,一些交给transformer就足够了,NLP领域这么多算法和模型,不需要一个个来学习一个个来实验
6.Huggingface
Huggingface就是集大成者于一身,包括了当下NLP所有核心模型
对我们来说,调用bert模型,gpt模型及其训练好的权重参数,只需要1行代码
微调我们自己的任务,只需处理好咱们的数据,然后继续训练模型即可
即使你对数据一无所知,即便你对代码稀里糊涂,内置的函数,调这个包就可以了,即便你对数据无从下手,
7.它不仅是一个工具包,更是一个社区,也是NLP大佬们的舞台
运营好,却可能花掉超过千倍的开发成本,所以不仅仅是模型
越来越多的学术大佬通过它来开源模型,来宣传论文以及研究成果
8.关于它的故事
据传说,30个兼职的开发与算法工程师就撬动了20亿的市值
其实这离不开开源的力量,AI领域太需要一个舞台和社区了
时势造英雄,赶上了transformer在ai领域爆火,第一个吃螃蟹的人
BERT和GPT席卷NLP,Huggingface坐收渔利,社区驱动技术进步
9.一举两得,分而治之
Ai离不开学术上的驱动也离不开工程化的落地
站在巨人的肩膀上,先学后用