生成式AI科普文

姜虹影

已于 2023-06-14 17:21:29 修改

阅读量682

点赞数

文章标签：人工智能机器学习

于 2023-03-23 14:44:12 首次发布

本文链接：https://blog.csdn.net/weixin_42621956/article/details/129724077

版权

概念

是一种利用算法自动生成、操纵或合成数据的技术。

单字接龙，给模型任意长度的一串文字，模型生成下一个字，然后再带回到模型中，继续得到下一个字，以此递归，自回归生成。
相同的上文给不同的模型会生成不同的字，模型训练就是通过大量的输入，让其学习，不断的调整模型参数，使得生成得字有逻辑。如果给定得上文，模型判断有多个可能成得字，则模型根据概率来进行抽样，抽样具有随机性，所以相同得上文得到的字是不一样的。
如何回答问题？通过已有的问答，让模型学习规律，当遇到没见过的问题时能根据规律给出答案。回归。不同于搜索引擎。模型不存问答数据，只是通过大量数据来调整模型。
搜索引擎通过查数据库来获得结果，数据库没有的结果不能响应。生成式ai可以根据已有数据总结的规律，应对之前没有遇到过的问题，但是有可能出现模型混淆，即现时中不存在的问题如果符合某些模型的规律，则也会按照规律给出结果。对于事实性问题，可能回答的胡编乱造
模型只能训练，而不能直接调整指定问题的输出结果，使用时可能带来不可预知的结果，存在风险。只能通过再训练模型，但是只能通过提问获取结果，可能存在矫枉过正。效率低下

大语言模型

GAN（生成对抗网络）、VAE（变分自编码器）和RNN（循环神经网络）
监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强等

规则系统 ifx then y
定义规则表达式，如常见的基于分箱的模型，专家模型
机器学习 f(x)=y
让计算机寻找数据的规律，一般是特定领域的应用
深度学习 f~(x)=y
比机器学习的范围更大，也是针对于特定领域，不具备通用性。如通过深度学习回归得到的一个万能公式，如企业esg评分的公式，需要至少几百万的客户来训练，让模型找到数据间的规律
大模型fv_(x)=x极强的泛化能力
模型的参数多，如chatGPT有超过100万亿个参数。具备极强的泛化能力，各种场景均适用，而不需要调整模型本身。