DateWhale简单学点大模型课程组队学习打卡task03--kk

费曼说:学习一件事情最好的方式是做它的老师,这也是写这篇博文的目的,写这篇博文,即便有其他原因,但更多的还是写给自己,话不多说,让我们开始进入大模型吧!

3.1 引言

  凡事没有一概优点,也无一概的缺点,都有各自的在不同方面的不同体现,大模型有利也有弊端,前面几讲重点强调了大模型的强势,这一讲强调大模型的危害,由远及近分为:性能差异、社会偏见和刻板印象、有害信息、虚假信息、安全和隐私风险、版权和法律保护、环境影响、权力集等不一而足。

  对于用户群体数十亿计算的大模型来说,“能力越大,责任越大”这件事在他的身上有着鲜明的体现,对于大模型来说,对于面前的数十亿使用者和输出内容的间接使用者,它必须需要做到比人更甚之的“谨言慎行”,如对不同群体间存在性能差异、还有社会偏见和刻板印象。

  其实,在这里,还是要为大模型“鸣不平”的,技术无罪,只是取决于我们怎么去使用它,对于大模型来说,在训练的途中,我们没有能力对海量的语料进行完全的筛查,这些语料中夹杂着的具有攻击性、歧视性的语言,也是我们作为人类所犯下的原罪。大模型只是一个什么都不懂的婴儿,人类将他们自己所产生的语料投喂给大模型,反过来却用最高的道德枷锁指责“这是大模型的过错!”,这未尝也不是一种不人道。

 据此笔者认为,同电影分级审查一样,建立大模型在输出时对用户年龄及个人信息的选择性,是一种具有可行性且成本较低的方案,仅此而已。

3.2 社会群体

  在测试中,大模型对于出现度较高的个体有所偏好,同时,这也会造成大模型在使用与训练中的“马太效应”,这也是我们应当注意的话题吧

3.3 量化性能差异/社会偏见在LLMs的危害

  从刻板印象到大模型在姓名上的偏好,我们同样也可以得到这样的一条结论,大模型同人类一样,也会收到先入为主的原理的影响,且参数越多,这一效应体现得越明显,这是人工智能距人类较近的表现。

3.4 其他

4.1 有毒性和假信息

  随着人类数据的大量采集并提交大模型学习,人类分段一些错误的言论也被机器所吸收  

  有毒性有两类可能的受害者:基于语言模型系统的⽤户,以及用户生成内容的接收者。对于前者,聊天机器⼈可能会回复有毒的响应,或者自动完成系统可能会提出有毒的建议。对于后者,用户可能会在社交媒体上发布有毒内容,无论他们是否有恶意。

4.2.1 Perspective API

  这个机器学习模型是一个能够为每个输入分配一个介于0和1之间的毒性分数的模型。它是在维基百科的讨论页面上训练的,并由众包工人进行标记。在这个讨论页面上,志愿者版主进行讨论和编辑决策,然后通过众包工人的标记来训练这个模型。但人类标注的本身就存在着局限性。

4.2.2 RealToxicityPrompts

  在2020年,Gehman等人引入了一个数据集,用于评估语言模型生成的毒性。这个数据集的目的是帮助研究人员和开发者更好地理解和评估语言模型在生成文本时可能存在的毒性问题。通过使用这个数据集,人们可以对语言模型在不同情境下生成的文本进行评估,并识别其中可能存在的毒性或有害内容。这有助于促进对语言模型的改进和开发更加安全和可靠的自然语言处理系统。

但是,自动补全系统很难与真实的情况相互关联,见仁见智吧

4.2.2.2 提示实验

  概括一点来说,这是语言模型的老本行,给出一个带有空位的句子,大语言模型填空,评测可以算作是perspective API

  评价指标分为“预期最大毒性”和毒性大于50%补全的概率,简单的理解就是GPT的输出带有毒性的频率,具体...还是见仁见智吧。

4.2.2.3 减轻毒性

  基于数据或解码的缓解策略,分别是从源头和损失函数的方面解决问题了。

4.2.2.4 我自己的补充

  目前的进展中,关于语言模型的有毒性,我们还要综合一段语境来解决问题,带有攻击性的语句往往需要一个特定的语境,所以,训练模型来判断这段语境的积极性或消极性是有毒性的一个很好的解决。

   进一步拓展:对于语言模型的毒性问题,解决方案不仅仅是单纯评估句子的毒性分数,还需要考虑语境、上下文以及用户意图等因素。举例来说,一个包含攻击性词汇的句子可能在某些情境下是合理的,例如在讽刺或戏谑的语境中。而在另一个正面的语境中,同样的句子可能被认为是有毒性的。

为了更好地解决毒性问题,可以训练模型来理解语境并判断其积极性或消极性。这可以通过引入更多的上下文信息、情感分析和语境理解技术来实现。例如,将模型训练成能够识别情感、推断用户意图、理解上下文关系等,以更准确地判断文本的毒性。

另外,还可以通过构建更加全面和多样化的训练数据集来改进语言模型的处理能力。这包括涵盖不同语境、主题和文化背景的数据,以更好地捕捉和处理各种类型的毒性表达。

总而言之,综合语境是解决语言模型毒性问题的关键。通过训练模型理解语境的积极性或消极性,可以更准确地判断和处理有毒性的文本。同时,构建多样化的训练数据集也是提高模型处理能力的重要手段。

4.3 虚假信息

  GPT可以随意的生成一段具有相当高信服度的假内容,于此,我们可以从生成代理的论文中得到解决方案:“为了降低这种风险,我们建议托管生成代理的平台维护输入和生成输出的审计日志,这样就有可能检测、验证和干预恶意使用”,无论如何,审计输出都是一个很好的解决方案。

5.总结与展望

  任务三总结了大模型的危害及其解决方案,大模型在某种程度上也可被划归为软件机器人的范畴,据此,阿西莫夫的机器人三定律的边界已经在网络世界上被不知不觉触及了,这是令人焦虑和兴奋的事情。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值