GPT-3怎么走

GPT-3,拥有1750亿参数的巨型NLP模型,展示了强大的文本生成能力,如文章写作、对话、代码编写等。尽管面临成本高昂、偏见内容和错误等问题,其商业化潜力在翻译、问答、生产力工具等领域已初露端倪,但要实现广泛商业应用仍面临挑战。OpenAI通过API接口推动技术商业化,已在多个场景展现辅助作用,但是否能成为企业必备工具仍有待观察。
摘要由CSDN通过智能技术生成

对于我个人来说,刚刚步入媒体圈,职业生涯就将遭遇一次非常严重的AI威胁。

因为GPT-3来了,而且在写文章、编故事的能力上面比上一代更能打了。

今年5月,已经得到微软Azure算力加持的OpenAI放出了GPT-3这个巨型NLP模型怪兽,包含1750亿参数,比2月份微软刚推出的全球最大深度学习模型Turing NLG大上十倍,是其前身GPT-2参数的100倍。

我们可以用一张图表来直观感受下GPT-3所处在位置,是不是有点高处不胜寒的感觉?

被捧上天的 GPT-3,商业化之路怎么走?
同时,GPT-3使用的训练数据集也十分庞大,基于包含近1万亿单词量的CommonCrawl数据集、网络文本、数据、维基百科等数据,数据量达到了45TB。其训练费用也达到惊人的1200万美元,这已经是个人开发者和小型AI开发团队无法轻易染指的训练规模和成本了。

在最近大量有关GPT-3的介绍文章里,很多人都注意到的是这个模型惊人的体量和各种各样脑洞大开的文本生成能力,不仅是写文章、编故事、搞翻译,还包括多轮对话、写代码、做数学运算、表情包配文、做表格、生成图标等等,几乎是在文本方面为所欲为了。

有人惊呼“真正的AI已经到来”、“GPT-3可以改变世界了”,也有人说“GPT-3是一种形象工程”、“一种赤裸裸的炫富”。

无论评价如何,人们其实都并未过多注意到OpenAI现在发布GPT-3的API接口的一大原因是推动这一技术的商业化。现在,GPT-3模型已经广泛应用的领域当中,有哪些领域更好地进行商业化尝试,又有哪些领域仍然差强人意,这些也许是更值得我们去探讨的地方。

被捧上天的 GPT-3,商业化之路怎么走?
GPT-3到底有多厉害?

相较于之前的GPT-2,这次GPT-3有哪些明显的进步呢?

从训练方式来说,与之前版本并没有什么不同,GPT-3依旧延续之前的单向语言模型训练方式,只不过就是训练数据和参数有了几个数量级的提升。但从实际的效果来看,GPT-3的尝试至少验证了一点,就是将一个深度神经网络不断增大,它确实可以变得更加的聪明。

相较于当前的BERT模型,GPT-3主要能够解决两个问题,一个是避免对各领域内的标注数据的过分依赖,一个是避免对各领域数据分布的过度拟合,从而调教出一个更通用、更泛化的NLP模型。GPT-3的主要目标是用更少的领域数据,还有去掉微调步骤去解决问题。

被捧上天的 GPT-3,商业化之路怎么走?
(图源:李宏毅《深度学习人类语言处理》࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值