1. 技术缺陷类
-
AI幻觉(AI Hallucination)
定义:生成式AI(如ChatGPT)输出看似合理但实际错误或虚构的内容。
原因:训练数据噪声、模型过拟合或对上下文理解不足。
例子:AI编造不存在的论文引用或历史事件。 -
模型退化(Model Degradation)
定义:AI模型性能随时间下降,因数据分布变化或环境动态性导致。
例子:推荐系统因用户兴趣迁移而推荐过时内容。 -
过拟合(Overfitting)
定义:模型过度依赖训练数据细节,丧失泛化能力,在测试数据上表现差。
例子:图像识别模型只能识别训练集中的特定背景。
2. 数据与信息风险类
-
信息污染(Information Pollution)
定义:虚假、低质或误导性数据污染AI训练集或输出结果。
后果:AI生成错误答案或传播谣言。
例子:社交媒体虚假新闻被AI用于生成回答。 -
数据中毒(Data Poisoning)
定义:攻击者故意向训练数据注入恶意样本,破坏模型可靠性。
例子:在自动驾驶数据中添加误导性路标图片。 -
回音室效应(Echo Chamber)
定义:推荐系统过度强化用户偏好,导致信息茧房。
例子:短视频平台持续推荐同类内容,限制用户视野。
3. 伦理与社会影响类
-
深度伪造(Deepfake)
定义:利用AI生成的逼真虚假内容(如伪造名人视频、音频)。
风险:欺诈、诽谤或政治操纵。 -
算法偏见(Algorithmic Bias)
定义:模型因训练数据或设计问题产生歧视性决策。
例子:招聘AI偏好特定性别或种族候选人。 -
自动化偏见(Automation Bias)
定义:人类过度信任AI决策,忽视其潜在错误。
例子:医生盲目依赖AI诊断结果,忽略患者实际症状。
4. 安全与隐私风险类
-
对抗攻击(Adversarial Attack)
定义:通过细微扰动欺骗AI模型,使其错误分类。
例子:在停车标志上贴小贴纸,导致自动驾驶系统误判。 -
数据泄露(Data Leakage)
定义:训练数据中的敏感信息被模型记忆并泄露。
例子:聊天机器人意外输出用户隐私对话记录。 -
模型窃取(Model Stealing)
定义:通过API查询逆向还原AI模型参数或训练数据。
风险:商业机密泄露或模型被恶意复制。
5. 治理与解决方案类
-
AI对齐(AI Alignment)
定义:确保AI目标与人类价值观一致,避免危险行为。
难点:如何定义“人类价值观”并编码到模型中。 -
可解释性(Interpretability)
定义:让AI的决策过程对人类透明,便于审查和信任。
工具:LIME、SHAP等模型解释技术。 -
联邦学习(Federated Learning)
定义:分布式训练模型,不集中用户数据,保护隐私。
应用:手机输入法在不上传数据的情况下改进预测。
如何应对这些问题?
- 技术层面:
- 数据清洗、对抗训练、模型监控。
- 使用鲁棒性更强的架构(如Transformer)。
- 伦理层面:
- 建立AI伦理审查机制,避免偏见和歧视。
- 制定行业标准(如欧盟《人工智能法案》)。
- 用户层面:
- 提升AI素养,警惕深度伪造和自动化偏见。
- 主动验证AI生成内容的真实性。