对于我个人来说,刚刚步入媒体圈,职业生涯就将遭遇一次非常严重的AI威胁。
因为GPT-3来了,而且在写文章、编故事的能力上面比上一代更能打了。
今年5月,已经得到微软Azure算力加持的OpenAI放出了GPT-3这个巨型NLP模型怪兽,包含1750亿参数,比2月份微软刚推出的全球最大深度学习模型Turing NLG大上十倍,是其前身GPT-2参数的100倍。
我们可以用一张图表来直观感受下GPT-3所处在位置,是不是有点高处不胜寒的感觉?
被捧上天的 GPT-3,商业化之路怎么走?
同时,GPT-3使用的训练数据集也十分庞大,基于包含近1万亿单词量的CommonCrawl数据集、网络文本、数据、维基百科等数据,数据量达到了45TB。其训练费用也达到惊人的1200万美元,这已经是个人开发者和小型AI开发团队无法轻易染指的训练规模和成本了。
在最近大量有关GPT-3的介绍文章里,很多人都注意到的是这个模型惊人的体量和各种各样脑洞大开的文本生成能力,不仅是写文章、编故事、搞翻译,还包括多轮对话、写代码、做数学运算、表情包配文、做表格、生成图标等等,几乎是在文本方面为所欲为了。
有人惊呼“真正的AI已经到来”、“GPT-3可以改变世界了”,也有人说“GPT-3是一种形象工程”、“一种赤裸裸的炫富”。
无论评价如何,人们其实都并未过多注意到OpenAI现在发布GPT-3的API接口的一大原因是推动这一技术的商业化。现在,GPT-3模型已经广泛应用的领域当中,有哪些领域更好地进行商业化尝试,又有哪些领域仍然差强人意,这些也许是更值得我们去探讨的地方。
被捧上天的 GPT-3,商业化之路怎么走?
GPT-3到底有多厉害?
相较于之前的GPT-2,这次GPT-3有哪些明显的进步呢?
从训练方式来说,与之前版本并没有什么不同,GPT-3依旧延续之前的单向语言模型训练方式,只不过就是训练数据和参数有了几个数量级的提升。但从实际的效果来看,GPT-3的尝试至少验证了一点,就是将一个深度神经网络不断增大,它确实可以变得更加的聪明。
相较于当前的BERT模型,GPT-3主要能够解决两个问题,一个是避免对各领域内的标注数据的过分依赖,一个是避免对各领域数据分布的过度拟合,从而调教出一个更通用、更泛化的NLP模型。GPT-3的主要目标是用更少的领域数据,还有去掉微调步骤去解决问题。
被捧上天的 GPT-3,商业化之路怎么走?
(图源:李宏毅《深度学习人类语言处理》