总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
AI Alignment: A Comprehensive Survey
人工智能对齐:全面调查
https://arxiv.org/pdf/2310.19852
https://www.doubao.com/chat/3367091682540290
速览
- 研究动机:AI系统能力提升伴随 misalignment 风险,需确保其行为符合人类意图与价值观。
- 研究问题:如何实现AI系统的鲁棒性、可解释性、可控性与伦理合规性,应对训练及部署风险。
- 研究方法