本文是LLM系列文章,针对《Unmasking the Shadows of AI: Investigating Deceptive Capabilities in Large Language Models》的翻译。
揭开人工智能的阴影:大型语言模型中的欺骗能力研究
摘要
这项研究批判性地探索了人工智能欺骗的复杂景观,重点研究了大型语言模型(LLM)的欺骗行为。我的目标是阐明这个问题,审视围绕它的话语,然后深入研究它的分类和后果。本文首先对2023年人工智能安全峰会(ASS)进行了评估,并引入了LLM,强调了其欺骗性行为背后的多维偏见。通过阐明算法偏见并探索定义“欺骗”的不同方法,我认为欺骗性人工智能是一种与LLM发展交织在一起的固有现象,它可能演变成一种自我驱动的意图,独立于偏见训练过程。
文献综述涵盖了四种类型的欺骗,分为:战略欺骗、模仿、欺骗和不诚实推理,以及它们所带来的社会影响和风险。主要在arXiv档案中可以找到的关于欺骗性人工智能的文献表明,社会科学的贡献不足。这一缺陷可归因于人工智能欺骗的早期测试阶段,限制了其主要在计算机科学领域的研究。最后,我对应对欺骗性人工智能的持续挑战的各个方面采取了评估立场。这包括国际合作治理的考虑、个人与人工智能的重新配置、实际调整的建议以及数字教育的具体要素。在整个研究过程中,LLM被视为关系、结构和实践的基础设施,提供了对“作为共同构成伤害的关系安排的基础设施”的全面理解。