【02-大模型基础——垂直领域应用大模型的挑战】

1 前言

记录在外滩大会听到的关于大模型的领域适配与行业优化的讲座,其中谈到了大模型的能力与危害,虽然是金融领域的方向,但是对于整体大模型的领域适配具有相似的价值,且金融领域的数据处理要求更精准,更严谨,安全隐私也是重中之重,具有借鉴意义。

2 大模型 + 知识图谱

垂直领域应用大模型的初衷是因为大模型能解决行业所不具备的通识知识,而这是人类独有的,但专业领域的数据所不具备欠缺的,或需要消耗大量资源才能满足的能力。

但是大模型在专业领域应用时,精确度有所欠缺,是由于大模型的缺点,它的不可解释性,不可控制性,不可编辑性。而知识图谱具有知识增强、结构化信息、知识提取和补全、推理与推导的能力,能够很好的弥补大模型的不足,但不具备常识判断等大模型具有的特点。并且,本来行业中原先也是应用知识图谱的,现在正好可以结合大模型和知识图谱,互相弥补不足。但具体的实践还有待进一步探索。

3 大模型的质量评估

肖教授强调了大模型质量评估的重要性。他认为,评估不能仅停留在语言处理层面,而需要从人类认知的角度借鉴思路,例如,考虑大模型是否具有可逆思维、创造思维、抽象思维、数值思维等能力,是否存在认知偏见或认知障碍。这种评估关系到我们是否有资格成为裁判员,从而掌握大模型研究与应用的主动权。

4 大模型的潜在问题

他详细讨论了大模型可能带来的潜在危害或有毒性,这些问题主要涉及隐私泄露、事实错误、逻辑错误、认知偏见等。

4.1 认知偏见

对于大模型的有毒性,主要表现为生成具有冒犯、伤害性内容的能力。这可能包括侮辱、威胁和仇恨言论。一个具体的例子是大模型可能会生成具有偏见和刻板印象的预测。例如,系统的预测(生成的文本)可能包含目标概念(例如,科学)和某个人口群体(例如,男性、女性)之间的关联,但这些关联对于某些群体可能更强,即反映特定的价值体系或意识形态。

4.2 精神伤害

大模型中的有毒性可能会对使用基于大语言模型系统的人造成伤害。例如,聊天机器人可能会回复具有有毒性的响应,或者自动完成系统可能会提出有毒性的建议。另外,用户可能会在社交媒体上发布具有有毒性的内容,而这可能会对接收用户生成内容的人造成伤害。

4.3 思维误导

大模型可能会生成误导性的内容,这也是一种有毒性的表现。在这种情况下,大模型生成的信息可能会误导用户,导致他们做出错误的决策或得出错误的结论。

4.4 隐私泄露

肖教授提出了大模型存在的一些问题。例如,大模型可能会出现隐私泄露的问题,因为训练大型语言模型的数据集通常很大,并且数据源较丰富,可能涉及名称、电话号码、地址等敏感个人数据,即使以公开数据训练也是如此,这可能导致语言模型输出里涵盖某些隐私细节。

此外,大模型可能会出现事实错误、逻辑错误等问题。

5 大模型的改进方法

5.1 数据质量提升与数据对齐

然后,他详细讨论了大模型的优化问题。大模型训练的数据良莠不齐,需要进行精心的样本选择、样本转换、样本清洗、提示注入,才能训练得到高质量大模型。此外,他强调我们需重视大模型的价值对齐。目前现有大模型主要通过国外专家反馈训练,其价值观与国内有很大不同,我们需要通过对人类反馈的强化学习,实现大模型与人类价值的对齐。

5.2 知识与价值观注入

肖教授还强调了大模型的事实编辑和知识注入的重要性。大模型本质上是统计模型,对于特定事实或信念的可控编辑存在巨大挑战。我们需要让大模型遗忘、记住特定事实。而且,大模型缺乏人类的知识,特别是专业知识。我们需要探讨如何将人类的各类认知,比如领域知识、概念层级、价值观念注入到大模型中。

5.3 大模型的持续更新

最后,肖教授提出了大模型的持续更新的问题。现有模型多是基于一次性的构建过程,缺乏持续性知识获取能力,如缺失大量新兴实体(如新型冠状肺炎),充斥过时知识等。另外,认知智能系统需要持续知识更新能力以应对现代的知识爆炸性增长,当前的大模型训练代价太大,更新成本巨大、效率低下。

6 结论

尽管存在这些问题,肖教授强调,大模型不应该仅仅被视为宣传材料中的一个噱头,而应该被视为能够推动社会发展和进步的真正力量。他还强调,提高大模型技术研究的重要性,需要在这一领域更加深思熟虑、扎实实践。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值