强化学习
智能体 状态 行为 奖励 策略
马尔可夫决策系数
状态
动作
状态转移概率
奖励函数
折扣系数
价值函数- 衡量某一状态 或状态-动作对的 累计奖励的期望
策略:已知状态下的
bellman方程
联邦学习
01 金融小数据与隐私保护的挑战 数据不动 模型动
*法律-案例
*金融-反洗钱
*医疗-医疗影像
小数据:迁移学习 数据孤岛:联邦学习
数据隐私保护
特殊的分布式机器学习
按样本分割(横向联邦学习) 特征方面重叠-
step 1:本地建模:wi
step 2:在本地对模型wi加密||wi||
step 3:上传 本地加密的模型||wi||
step 4: 整合
step 5:下传w到各个终端
step 6:各自本地,利用w对wi更新
(纵向联邦学习) 用户方面聚合
联邦迁移学习
半诚实 恶意 零知识 一些知识
恶意中心 恶意数据节点
面临的挑战: 模型攻击,数据攻击
利益分配
安全性:梯度推断用户数据性质。
鲁棒性:拜占庭将军问题(攻击:干扰学习,防御:server check) 问题:数据不是独立同分布