总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models
安全 RLHF-V:在多模态大型语言模型中通过人类反馈进行安全强化学习
https://arxiv.org/pdf/2503.17682
https://www.doubao.com/chat/3262151266155266
速览
- 研究动机:多模态大语言模型存在安全风险,现有方法难以平衡其有用性与安全性,需新方案。
- 研究问题:如何构建有效框架,提升多模态大