强化学习、联邦学习等知识

强化学习

智能体 状态 行为 奖励 策略
马尔可夫决策系数

状态
动作
状态转移概率
奖励函数
折扣系数

价值函数- 衡量某一状态 或状态-动作对的 累计奖励的期望
策略:已知状态下的

bellman方程

联邦学习

01 金融小数据与隐私保护的挑战 数据不动 模型动
*法律-案例
*金融-反洗钱
*医疗-医疗影像

小数据:迁移学习 数据孤岛:联邦学习

数据隐私保护

特殊的分布式机器学习

按样本分割(横向联邦学习) 特征方面重叠-

step 1:本地建模:wi
step 2:在本地对模型wi加密||wi||
step 3:上传 本地加密的模型||wi||
step 4: 整合
step 5:下传w到各个终端
step 6:各自本地,利用w对wi更新

(纵向联邦学习) 用户方面聚合

联邦迁移学习

半诚实 恶意 零知识 一些知识
恶意中心 恶意数据节点

面临的挑战: 模型攻击,数据攻击
利益分配

安全性:梯度推断用户数据性质。
鲁棒性:拜占庭将军问题(攻击:干扰学习,防御:server check) 问题:数据不是独立同分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值