〇 简要综述
本文分别使用强化学习和深度强化学习的方法通过改变系统模型的参数(传感器的密钥、传输功率和IRS的相位偏移)防御窃听者的窃听攻击从而保证WBAN的安全传输,同时提高传输性能(降低能耗,提高传输效率)。
Ⅰ 引言和相关工作
1.无线体域网(WBAN)
WBAN是一种专门用于在人体周围进行无线通信的网络技术。主要用于医疗健康领域,通过在人体内或体表放置的多个传感器来采集和传输生理数据,以便进行实时监测、诊断和治疗。
2.智能反射面(IRS)
智能反射面由智能反射单元阵列组成,每个智能反射单元能够独立地对入射信号进行某些改变。大量的研究基本考虑到入射信号的相位偏移,所以IRS不消耗传输功率。IRS的主要作用是通过反射信号传输的角度和方向,增强特定区域的信号强度。
3.强化学习(RL)
1. 状态(State):
状态就是在某个时刻环境的具体描述,系统所处情景的完整表述,包含所有观测到的信息。
2. 动作(Action):
动作是在特定状态下可以采取的行为或选择。每个动作会使智能体从一个状态转移到另一个状态。在本文中动作是改变加密密钥、传感器的发射功率级别以及IRS的相移。
3. 策略(Policy):
策略是在当前状态下应该采取的动作是什么,通过制定策略长期内获得最大化累计奖励。
4. 奖励(Reward):
就是执行动作后得到的反馈信号,用于评估该动作的好坏,它指导如何调整策略以实现目标。
本文通过强化学习要改变的有以下这三个动作:
- 密钥长度:由于WBAN主要用AES加密,如果密钥过长虽然安全性有所保障,但容易消耗过多的通信带宽,传输延迟过高。
- 传感器的发射功率:功率分配方案应用了值迭代动态规划,可以根据窃听者的干扰策略做出相应调整。
- IRS的相位偏移:IRS反射信号通过增加协调器接收到的信号功率,减少窃听者接收到的信号功率,从而对抗窃听。
Ⅱ 系统模型和问题表述
A.无线体域网模型的工作原理
- 首先传感器从人体采集健康数据,通过A/D转化器以速率R进行采样。
- 采集的数据用AES加密,密钥是由椭圆曲线DH算法生成的。
- 加密后的数据再进行信道编码(channel coding)(例如BCH编码)
- 编码后的数据使用例如DBPSK进行调制,用于无线信道的传输
- 传感器根据协调器的指令调整发送功率,然后将调制后的数据发送到协调器。
- 协调器接收到传感器的数据后,进行解调和信道解码。
- 解码后的数据经过AES解密恢复原始数据。
- IRS由M个反射元件组成,协调器的指令通过设置PIN二极管的偏置电压可以调整IRS的相位偏移。
- 控制信道(control channel):协调器通过控制信道向传感器和IRS发送加密密钥、相位偏移和发射功率等控制信息
B. WBAN 信道模型
主要介绍了信道估计的过程,信道估计的主要作用是得到信道当前状态信息
- 协调器评估接收到的传感器导频信号从而获得传感器与协调器之间的信道状态信息(CSI)
- IRS使用半被动元件辅助的信道估计方法来估计传感器-IRS和IRS-协调器的信道状态信息
C. 攻击模型
主动窃听者选择合适的干扰功率发送干扰信号,诱导传感器提高发射功率,从而获取更多的数据。获得数据之后再解密数据。
主要展示了从传感器到协调器的传输过程,以及如何应对主动窃听者的窃听攻击。在每个时间段中动态调整传感器和IRS的操作参数,从而实现数据传输的安全性以及防御窃听攻击。
- 信道估计和干扰测量:a窃听者发送干扰信号;b进行信道估计测量接收到的干扰功率(power)
- 协调器向IRS和传感器发送信标,通知其开始传输过程
- 传感器发送RTS(数据的优先级),IRS发送RTS(IRS信道状态)。
- 安全传输策略选择:协调器基于接收的(数据优先级、IRS信道状态、前一个time slot的SINR)选择传感器的CTR_S(加密密钥、发射功率)和IRS的CTR_R(相位偏移)。
- 调整IRS反射元件的相位偏移从而优化信号传输。
- 传感器对数据进行加密和channel coding并且发送消息(MSG)
- 协调器对数据解码和解密,并且协调器估计信噪比(SINR),发送确认消息(ACK)给传感器和IRS,表示数据已成功接收。
Ⅲ 基于 IRS 辅助 RL 的节能安全 WBAN 传输
因为协调器很难知道窃听信道状态和窃听策略,所以很难保证WBAN传输的安全,提出了强化学习的WBAN传输方案实现最优策略,包括选择传感器加密密钥、发射功率以及IRS相位调整。同时使用传感器信号的信噪比(SINR)作为安全性标准。
A.state
某个时刻环境的具体描述:
输入的信息有干扰功率(jamming power)、基于导频的信道估计(pilot-based channel estimation)、数据优先级(data priority)、IRS信道状态(IRS channel states)、前一个时间段的传感器能耗和传输延迟(previous sensor energy consumption & transmission latency)、传感器到IRS的信道状态和IRS到协调器的信道状态。
总之,传感器的状态向量。包含数据优先级、接收到的干扰功率、传感器和IRS的信道状态、传感器能量消耗和传输延迟。
B. Action
当下可以做出的改变,动作集(所有的传输策略的集合):组成要素包括加密密钥、传感器的发射功率级别以及IRS的相移。
动作集是一个具有三维的有限集合,包含以下部分:
- 传感器加密密钥的取值(1到Z)。
- 传感器发射功率级别的取值(1到D)。
- IRS相移的取值(每个相移从0到N-1)
C. Policy
通过计算和评估策略分布以选择合适的传输策略。
协调器根据传感器信号的SINR 设置一个安全标准。如果在状态-动作对下的SINR低于安全标准,则认为该状态-动作对的风险水平为1,否则为0。
D. Reward
1.效用函数u的计算
效用函数 u 结合了数据保护等级、窃听率、SINR、传感器能耗和传输延迟
协调器的目标是最大化期望的长期效用
其中γ是折扣因子,表示未来效用的重要性。
2.强化学习和经验回放:
状态转移概率由状态-动作对和下一状态计数器和出现次数向量得到
建模效用 ω 定义为所有真实反窃听传输经验的平均效用
生成 J 个模拟经验,根据这些经验更新长期风险水平和预期长期效用,最终通过迭代Bellman方程进行优化。
IV 基于DRL的安全WBAN传输
主要是为了提高WBAN的传输性能,使用了深度RL。
- actor-critic模型:
Critic 是评判网络:当输入为环境状态时,它可以评估当前状态的价值;当输入为环境状态和采取的动作时,它可以评估当前状态下采取该动作的价值。
Critic 网络的输入一般有两种形式:(1)如果输入为状态,则该评价网络的作用为评价当前状态价值;(2)如果输入为状态和动作,则该评价网络的作用为评价当前状态的动作价值。
Actor 为策略网络,以当前的状态作为输入,输出为动作的概率分布或者连续动作值,再由 Critic 网络来评价该动作的好坏从而调整策略。
2.本文中的深度强化学习模型
actor网络根据当前状态生成传输策略,critic网络评估状态值。
Actor:用于生成策略,即决定在当前状态下采取哪种动作(如选择传感器的加密密钥、传感器发射功率和IRS相移)。
Critic:用于评估当前策略的表现,即计算在当前状态和动作下的价值函数(Q值)。
Ⅴ 性能分析和仿真结果
在模型中协调器选择传输策略(包括加密密钥长度、传输功率和IRS相位移),而窃听者选择干扰功率。
随着时间的推移,窃听率ITDL比ITRL收敛的更快,ITDL的窃听率始终比ITRL低。
同样的:在能耗方面、传输延迟方面,ITDL也始终比ITRL低
在传输的安全容量上,ITDL也始终比ITRL传输的安全容量更高。
ITDL的效用(综合指标)也一直比ITRL更高,更快的逼近理想状态。
结论:
- 随着时间的推移,ITDL和ITRL的效用(utility)相比于BDL(基线策略)都提高了很多。
- 窃听者距离传感器从6米增加到10米,而ITRL的效用提高了38.6%。主要因为窃听者信道条件的恶化。
- 增加IRS的反射元件的数量可以提高效用。
总之,通过强化学习改变协调器的选择(传感器的密钥、传输功率和IRS的相位偏移)降低窃听者的窃听率和拦截概率。