硅纪元视角 | Llama3在诚实性测试中暴露巨大缺陷，比GPT-4o更爱说谎-CSDN博客

本文链接：https://blog.csdn.net/guijiyuantech/article/details/140375121

在数字化浪潮的推动下，人工智能（AI）正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展，捕捉行业动态；提供深入的新闻解读，助您洞悉技术背后的逻辑；汇聚行业专家的见解，分享独到的视角和思考；精选对您有价值的信息，帮助您在AI时代中把握机遇。

1 分钟速览新闻

Llama3在诚实性测试中暴露巨大缺陷，比GPT-4o更爱说谎
震撼更新！Stability AI让P图无痕，歌曲生成只需3分钟！
AI大模型DeepPT辅助癌症治疗有效率提升至46.5%
上海浦东领跑智能时代，人形机器人银行大堂经理亮相
OpenAI 公布通用人工智能五级标准，离第二级仅一步之遥

全球AI新闻

一、Llama3在诚实性测试中暴露巨大缺陷，比GPT-4o更爱说谎

资讯概要

上海交通大学生成式人工智能实验室推出了BeHonest评估基准，用于评估大语言模型的诚实性。评估从自我认知、非欺骗性和一致性三个核心维度出发，测试了包括GPT-4o和Llama3-70b在内的9个主流大模型。结果显示，大多数模型在回答已知问题时表现良好，但在承认未知问题和避免误导用户方面仍有不足。Llama3-70b整体表现最佳，但在非欺骗性方面表现最差。Mistral-7b则在承认未知问题方面表现突出。评估发现模型规模与回复一致性成正相关，大模型表现更稳定。研究团队呼吁AI社区进一步关注和提升AI模型的诚实性，以确保其安全应用和技术进步。

硅纪元视角

上海交通大学生成式人工智能实验室推出的BeHonest评估基准，旨在评估大语言模型的诚实性，为AI技术的安全应用和进步提供科学依据。在应用层面，这一评估工具有助于提升AI在教育、医疗和金融等关键领域的可信度。例如，在教育领域，AI能够更准确地回答学生的问题，避免误导；在医疗领域，AI系统可以提供更可靠的诊断建议，减少误诊风险；在金融领域，AI助手可以避免提供误导性投资建议，保护用户利益。通过关注自我认知、非欺骗性和一致性，BeHonest评估基准推动了AI模型在各类应用场景中的透明性和可靠性，提高了用户对AI系统的信任，促进了技术的健康发展。

二、震撼更新！Stability AI让P图无痕，歌曲生成只需3分钟！

资讯概要

Stability AI推出了两项重磅更新：一键无痕P图和3分钟生成整首歌曲的新功能。新版本的AI工具可以轻松去除图片中的元素，而不会留下任何痕迹，使图像处理变得更加简单和高效。同时，用户只需提供几分钟的音频片段，AI就能生成一整首歌曲。这些新功能让即使不懂技术的人也能轻松进行高质量的图像和音乐创作，极大地降低了创作门槛。

硅纪元视角

Stability AI推出的一键无痕P图和3分钟生成整首歌曲的新功能，极大地拓展了AI在图像和音乐创作领域的应用价值。在图像处理方面，一键无痕P图功能让用户能够轻松去除图片中的元素，不留任何痕迹。这对广告设计、社交媒体内容创作和电子商务等领域尤其重要，能显著提高工作效率，减少修图时间，且无需专业技术知识。

在音乐创作方面，3分钟生成整首歌曲的功能使得音乐创作变得前所未有的简单和快捷。用户只需提供几分钟的音频片段，AI就能生成高质量的完整歌曲。这对音乐制作人、内容创作者以及娱乐行业的从业者具有重要价值，不仅降低了创作门槛，还能大大缩短制作周期，激发更多创作灵感。这些功能的推出，预示着AI技术将在创意产业中发挥越来越关键的作用，推动创作流程的创新和优化。

三、AI大模型DeepPT辅助癌症治疗有效率提升至46.5%

资讯概要

科学家们开发了一种名为“DeepPT”的人工智能模型，能够帮助医生为癌症患者选择最佳疗法。该模型通过预测患者的信使核糖核酸(mRNA)图谱，来判断患者对不同疗法的反应。研究显示，使用“DeepPT”后，治疗有效率从33.3%提高到46.5%。此外，该模型与另一种名为ENLIGHT的工具结合使用时，效果更佳。该研究使用了16种常见癌症的5500多名患者数据进行训练，显著减少了处理复杂分子数据的时间。AI在医疗领域的应用不断扩大，此前牛津大学等机构也利用AI开发了个性化癌症疗法，有效延长了患者复发的时间。这些进展表明，人工智能在提升癌症治疗效果方面具有巨大潜力。

硅纪元视角

“DeepPT”人工智能模型在医疗领域的应用，标志着AI技术对癌症治疗的革命性提升。通过预测患者的mRNA图谱，该模型能够帮助医生选择最适合患者的治疗方案，将治疗有效率从33.3%提升至46.5%。这种精准医疗的实现，不仅大大提高了治疗效果，还显著减少了处理复杂分子数据的时间。结合ENLIGHT工具使用，效果更佳，为癌症治疗提供了更全面的支持。以5500多名患者数据训练的“DeepPT”展示了AI在处理大规模复杂数据上的强大能力，进一步推动了个性化医疗的发展。这些进展表明，AI技术在提高癌症治疗效果和延长患者生命方面具有巨大潜力，预示着未来医疗领域将迎来更加智能和高效的时代。

四、上海浦东领跑智能时代，人形机器人银行大堂经理亮相

资讯概要

国内首个专门训练人形机器人担任银行大堂经理的场景训练基地在建行上海浦东分行启用。这个基地采用开放式创新训练模式，提升人形机器人的能力，推动技术和应用发展。参训机器人具备高度仿生的外形和拟人化的运动控制，结合视觉、听觉、语音等人工智能技术进行训练，已能执行银行业务咨询、业务分流、智慧柜员机操作指南、反欺诈宣传等任务。预计到2026年，中国人形机器人产业规模将突破200亿元，未来可能实现超预期增长。

硅纪元视角

人形机器人在银行大堂的应用，标志着AI技术在服务行业的深度融合与创新。通过在建行上海浦东分行建立的专门训练基地，这些机器人不仅具备高度仿生的外形和拟人化的运动控制，还结合了视觉、听觉和语音等先进AI技术，能够执行复杂的银行业务咨询、业务分流、智慧柜员机操作指南以及反欺诈宣传等任务。这种创新训练模式不仅提升了机器人在实际场景中的表现，也推动了技术和应用的不断发展。到2026年，中国人形机器人产业规模预计将突破200亿元，显示出其巨大的市场潜力和应用价值。通过不断优化和提升，未来这些机器人将能为银行等服务行业提供更高效、更智能的服务，提升用户体验，降低运营成本，真正实现技术赋能业务发展的目标。

五、OpenAI 公布通用人工智能五级标准，离第二级仅一步之遥

资讯概要

OpenAI 提出了通用人工智能（AGI）的五级标准，旨在评估人工智能的发展进程。AGI 是指能够自主完成任务、具备学习和决策能力的智能体。OpenAI 目前认为自己处于第一级，但接近第二级。五级标准包括：第一级是聊天机器人，能进行对话；第二级是推理者，能解决复杂问题；第三级是代理，能代表用户行动；第四级是创新者，能帮助发明；第五级是组织者，能完成组织工作。OpenAI 一直致力于构建 AGI，预计 2030 年前可能实现。

硅纪元视角

OpenAI提出的通用人工智能（AGI）五级标准，标志着AI在多领域潜力的具体化。第一级的聊天机器人可以通过自然语言处理技术提升客户服务和教育行业的互动体验；第二级推理者则能应用于复杂问题的解决，如医疗诊断和金融分析，从而提高准确性和效率；第三级代理能在个人助理和智能家居中为用户提供自动化服务；第四级创新者有助于研发和创意产业，推动新发明和艺术创作；第五月组织者则可以在企业管理和大规模项目协调中发挥关键作用。OpenAI的目标不仅是技术突破，更是广泛应用，实现2030年前全面AGI，将为各行各业带来深远影响。