Cleanlab 推出新解决方案以检测语言模型中的 AI 幻觉

本文链接：https://blog.csdn.net/2401_84495725/article/details/138338681

Cleanlab发布了TLM，一种能检测和减少大型语言模型幻觉的创新技术，通过结合不确定性评估和AI算法，增强了生成式AI的可信度，帮助企业执行关键任务。TLM在行业测试中表现出色，有望推动AI在企业中的广泛应用和效率提升。

摘要由CSDN通过智能技术生成

旧金山，2024 年 4 月 25 日 — Cleanlab 今天推出了可信赖语言模型（TLM），这是生成式 AI 的一项根本性进步，该公司表示可以检测大型语言模型（LLM）何时出现幻觉。伯克利研究小组（Berkeley Research Group）副主任兼高级数据科学家史蒂文·高索普（Steven Gawthorpe）博士称可信赖语言模型是“我所见过的LLM幻觉的第一个可行答案”。
在这里插入图片描述

生成式人工智能有望改变每个行业和职业，但它面临着“幻觉”的重大挑战，即 LLM 产生不正确或误导性的结果。给定的 LLM 响应可能听起来很有说服力。但这是正确的吗？它是基于现实的吗？LLM 无法确定。这使得使用生成式 AI 自动执行敏感任务几乎是不可能的。

缺乏信任是企业采用LLM的主要障碍，数十亿美元的生产力提高被锁定在这种困境背后。Cleanlab是第一个破解它的人。

Cleanlab 的 TLM 结合了世界一流的不确定性估计、自动 ML 组装和量子信息算法，重新用于通用计算，以增加对生成式 AI 的信任。它的 API 可以包裹任何 LLM，为每个响应生成可靠的可信度分数。

在 LLM 可靠性的行业标准基准测试中，TLM 全面击败了其他方法。它提供的性能不仅卓越，而且始终如一，让企业有信心依靠生成式 AI 完成重要工作。

例如，企业可以使用 TLM 自动执行客户退款，每当 LLM 的响应低于预定的可信度时，人工审核员就会参与其中。

“Cleanlab 的 TLM 为我们提供了数千名数据科学家的力量，以丰富数据并加强 LLM 输出，为我们的许多客户提供 10 倍到 100 倍的投资回报率。与Cleanlab正在做的事情相比，其他工具甚至不在同一个竞争环境中，“Gawthorpe说。在这里插入图片描述

“Cleanlab 的 TLM 是有效解决幻觉的真正开创性解决方案，”Lightning.ai AI 工程师 Akshay Pachaar 补充道。“Cleanlab 可信度评分的集成改变了人机交互工作流程，实现了高达 90% 的自动化。它不仅每周节省数百小时的人力，而且提高了我们处理大量数据集的效率，以进行数据丰富、文档和