Talk｜香港科技大学陈铠：吃一堑长一智-大模型自我分析实现自对齐

最新推荐文章于 2024-09-20 14:07:29 发布

TechBeat人工智能社区

最新推荐文章于 2024-09-20 14:07:29 发布

阅读量801

点赞数 15

文章标签：机器学习自然语言处理大语言模型价值观对齐

本文链接：https://blog.csdn.net/hanseywho/article/details/135862558

版权

香港科技大学博士生陈铠在TechBeat人工智能社区分享了大模型如何通过自我分析实现自对齐，避免错误输出，利用错误进行学习，提升鲁棒性。研究已在ICLR2024入选，探讨了大模型对人类价值观的对齐和相关技术细节。

摘要由CSDN通过智能技术生成

本期为TechBeat人工智能社区第567期线上Talk。

北京时间1月25日(周四)20:00，香港科技大学博士生—陈铠的Talk已准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “吃一堑长一智-大模型自我分析实现自对齐”，系统地介绍了他的团队在基于自然语言错误分析的大语言模型自对齐框架等相关工作所做的研究。本工作已入选ICLR 2024。

Talk·信息

▼

主题：吃一堑长一智-大模型自我分析实现自对齐

嘉宾：香港科技大学博士生陈铠

时间：北京时间 1月25日(周四)20:00

地点：TechBeat人工智能社区

点击下方链接，即可观看视频！

TechBeatTechBeat是荟聚全球华人AI精英的成长社区，每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。https://www.techbeat.net/talk-info?id=845

Talk·介绍

▼

本次分享将介绍“从错误中学习”的大语言模型自对齐框架。不同于现有算法高度依赖人类标注和清洗“正确回复”数据，我们提出“以毒攻毒”，给大模型输入自己的“错误回复”，再引导其分析错误原因，反而能让模型真正理解“错在哪儿”，从而有效规避错误输出，无需额外人工标注或奖励模型，就能实现大模型价值观的自对齐。

Talk大纲

1、背景 - 大模型需要对齐人类价值观的原因和现有方案介绍

2、观察 - 相较于生成，大模型更擅长进行错误分析

3、方案 - 基于自然语言错误分析的大语言模型自对齐框架

4、实验 - 保持通用能力的同时，显著提升大模型对于指令攻击的鲁棒性

5、结论 - 未来工作展望

Talk·预习资料

▼

论文链接：

https://arxiv.org/abs/2310.10477

论文链接：

https://arxiv.org/abs/2109.01652

论文链接：

https://arxiv.org/abs/2203.02155

Talk·提问交流

▼

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

陈铠

香港科技大学·博士生

香港科技大学在读博士生，师从Dit-Yan Yeung教授，本科毕业于复旦大学（上海市优秀毕业生）。研究方向包括大语言模型价值观对齐、视觉感知数据生成以及自监督表征学习，相关工作发表于CVPR、ICCV、ECCV、ICLR、NeurIPS等计算机视觉和机器学习的顶级学术会议。

个人主页: https://www.techbeat.net/grzytrkj?id=37039

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区