InertiEAR: Automatic and Device-independent IMU-based Eavesdropping on Smartphones

本文链接：https://blog.csdn.net/Sky_QiaoBa_Sum/article/details/130469225

InertiEAR是一种新的基于IMU的智能手机窃听攻击方法，它能自动且不受设备限制地从扬声器获取语音信息。通过利用IMU的响应一致性，InertiEAR能够在200Hz采样率限制下进行无错误分割和自动窃听。文章指出，即使在限制采样率的情况下，IMU仍然能够捕获语音信息，特别是在混叠失真的情况下。InertiEAR通过消除噪声、自动分割、增强设备独立性以及语音识别，实现了78.8%的识别准确率和49.8%的跨设备准确率，揭示了智能手机隐私泄露的严重威胁。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

InertiEAR: Automatic and Device-independent IMU-based Eavesdropping on Smartphones

智能手机上基于IMU，自动的和设备无关的窃听

M. Gao et al., “InertiEAR: Automatic and Device-independent IMU-based Eavesdropping on Smartphones,” IEEE INFOCOM 2022 - IEEE Conference on Computer Communications, London, United Kingdom, 2022, pp. 1129-1138, doi: 10.1109/INFOCOM48880.2022.9796890.

Abstract

IMU：Inertial Measurement Unit，惯性测量单元。通常包含加速度计、陀螺仪和磁力仪三种传感器。使用IMU可以测量速度、方向和重力，这种动捕技术也就是我们常说的惯性动捕。

基于IMU的窃听攻击中，攻击者利用需要零权限访问的IMU来获取语音。一种常见的对策是限制采样率(200hz以内)，以减少人声基频(85-255Hz)和惯性测量(0-100Hz)的重叠。尽管如此，我们通过实验观察到，由于混叠失真，低于200 Hz的IMU采样仍然记录了足够的语音相关信息。

因此，我们提出了一种实用的侧信道攻击——InertiEAR，以应对采样率限制对零权限窃听的抵御。它利用IMU来窃听智能手机的顶部和底部扬声器。在InertiEAR设计中，我们使用数学模型利用内置加速度计和陀螺仪的响应和其硬件多样性之间的一致性。一致性允许在没有人工辅助的情况下精确分割。我们还减轻了硬件多样性的影响，并实现了比现有方法更好的设备独立性能，这些方法必须为可扩展的网络模型大量增加来自不同智能手机的训练数据。这两个优势重新启用了零权限攻击，但也将攻击面和危害程度扩展到现成的智能手机。intertiEAR的识别准确率为78.8%，在12款智能手机间的跨设备准确率高达49.8%。

I. INTRODUCTION

在信息时代，隐私一直是一个关键问题。人们对隐私保护的担忧与日俱增，尤其是对智能手机窃听的担忧。智能手机中的各种传感器智能地从现实世界收集信息。然而，这些传感器存在恶意滥用的风险。为了防止隐私泄露，个人需要有意识地对明显与隐私相关的传感器(如麦克风、摄像头和GPS)执行严格的访问控制。

与这些默认高允许级别的敏感传感器不同，内置惯性测量单元(IMU)通常被认为是风险较低的传感器。访问IMU只需要很少的权限或零权限。然而，据报道，这种传感器有助于对语音隐私进行所谓的“零授权”攻击[1]-[6]。在此类攻击中，攻击者可以在没有用户许可或注意的情况下访问内置加速计。这些IMU可以从同一智能手机的车载扬声器中拾取语音信号。凭借高采样率，IMU能够覆盖人类语音的基本频段(85-255赫兹)[7]。

最先进的（SOTA）攻击[2]、[3]在语音识别和说话人识别上的准确率分别达到了81%和78%。这样的威胁已经引起了该行业的警觉。一种普遍的看法是限制IMUs的采样率，以避免惯性测量范围与声音基带重叠。谷歌对IMU进行了限制，其采样率不能超过200赫兹[8]。

这种对策对零权限窃听有效吗？在实验上，我们观察到即使在上述限制的情况下，IMUs仍然执行私人语音窃取。用户声音中的高频成分的一部分将落入低频段，即混叠失真[9]。这表明有可能从200赫兹以内的惯性读数中包含的残留物中恢复语音。以商用现成(COTS)智能手机华为P40为例，其加速度计可以响应高达6 kHz的音频信号。这表明，如果仅仅限制IMUS的采样率，智能手机仍然容易受到零权限窃听的攻击。

我们进一步扩大了攻击面，窃听机载扬声器的顶部和底部。如图1所示，IMU对两个扬声器发出的音频信号作出响应。然而，最上面的一个通常被SOTA攻击忽略[2]、[3]。我们共同利用IMUs中的加速计和陀螺仪来加剧这些扬声器的隐私泄露。在这种恶化情况下，攻击者可以检索从智能手机中的任何扬声器发出的语音信息，例如呼叫、音频媒体和可能提到位置和日常日程的语音助理(VA)的响应。

请添加图片描述

为了利用窃听的做法，我们进一步解决了在以前的零权限攻击中仍然存在的两个现实挑战。

(A)自动化。以前的方法是缺乏无误差的信号分割方法。传统的音频检测和分割技术[10]很难处理惯性数据中的额外噪声，特别是在运动干扰下。Gyrophone[1]绝对依赖手动划分[1]，而最近的攻击依靠过滤器来消除噪音和人类运动的影响。但它们的效果是不完全的，因此分割不准确(在[3]中为82%，在[2]中为92%)。如果划分错误，人工检查是不可避免的。显然，这种人工且容易出错的分割不能提供令人满意的语音识别精度。
(B)设备无关性。最近的零权限攻击[2]、[3]利用人工智能技术提高了识别精度。然而，由于硬件功能的显著多样性，它们严重依赖训练数据，因此在看不见的智能手机上表现不佳。遗憾的是，基于从有限智能手机模型收集的训练数据来构建通用网络模型是极其困难的。对于某种看不见的智能手机，对手必须事先知道，并花费昂贵的开销训练专门的神经网络。因此，在设备无关的窃听方面，以前的攻击是不可扩展的。

因此，我们开发了一种新颖而实用的攻击方法–InertiEAR。它利用扬声器到IMU的侧通道，在智能手机上窃听顶部和底部扬声器的音频。特别是，我们从自动分割和设备无关性的角度解决了以往工作的局限性。我们利用与语音相关的加速度计和陀螺仪读数之间的一致性。在乘法器的帮助下，我们将这些相干响应迁移到直流偏置中，这样尽管有噪声和运动，响应仍能明显地与静音片段区分开。因此，它支持在没有人工帮助的情况下进行无错误的分割。同时，我们对智能手机的硬件多样性进行建模，以实现跨设备攻击。我们的方法综合了一系列技术，从数据处理的角度消除了硬件多样性的影响，促进了设备无关性。我们采用DenseNet[11]在处理后的数据上训练语音识别模型，获得了78.8%的高识别准确率。使用经过训练的模型，InertiEAR支持卓越的性能，跨设备准确率达到49.8%。在12款COTS智能手机上的广泛评估验证了InertiEAR在现实世界场景下的有效性。作为对策，我们提出了在不修改硬件的情况下防御此类窃听的方法。

总结起来，我们的贡献如下：

我们重新审视了基于IMU的窃听威胁，并实现了一种打破采样率限制的侧信道攻击InertiEAR。为了扩大其攻击面，提高其实用性，提出了一个数学模型。
借助精确的分割，实现了无需人工辅助的自动窃听。通过深入研究惯性读数的一致性，我们的分割没有噪声和运动干扰的错误。
InertiEAR实现了与设备无关的窃听攻击，不同于以往的工作，我们通过数学模型的处理来抑制硬件多样性，而不是简单地增加训练数据，从而显著降低了跨设备攻击的开销。

II. BACKGROUND

A. IMUs and Their Sensitivity to Speech

IMU及其对言语的敏感性

嵌入式智能手机的IMU由3轴微机电系统加速度计（测量加速度）和3轴微机电系统陀螺仪（提供角速度）组成。它们直接接触智能手机中靠近扬声器的电路板。因此，扬声器发出的语音信号，无论是顶部还是底部，都不可避免地会泄漏到IMU的测量中。

最近的研究证明，IMU对[1] -[6]提到的语音很敏感。

Michalevsky等人使用放置在公共表面上的独立扬声器研究了讲话对陀螺仪的影响。他们利用多个陀螺仪捕获语音振动以获得高采样率。它在识别和说话人识别上达到了相当低的准确率，识别达到26%，说话人识别50%。
Anand 等人 [6]回顾了IMU在不同场景下对私人演讲的威胁，包括人类语音和机器语音在空气或普通固体表面传播。他们得出结论，IMU只对通过高功率固体传播的信号敏感。
Ba等人使用内置的加速度计来窃听智能手机中的扬声器。在高达500 Hz的采样率下，它们在说话人识别上达到70%的准确率，在语音识别上达到78%的准确率。
Anand 等人[3] 利用4 kHz采样加速度计，分别将性能略微提高到79%和81%。

B. Related work

IMU以其灵敏度高、成本低的特点被广泛应用于各种系统中，方便用户使用。除了精确的姿态计算和运动估计[12]，它们还可以支持手势识别[13]-[17]、手语翻译[18]、隐蔽信道通信b[19] -[21]以及基于行为和生物特征的身份验证[22]-[26]。然而，攻击者可以在未经许可的情况下访问iOS和Android的IMU[1]，收集个人隐私，包括语音[1]-[6]、击键[27]-[32]、本地化[33]-[37]和设备指纹[38]-[41]。

III. THREAT MODEL

我们假设对手的目标是受害者智能手机上的扬声器发出的私人语音。它威胁到远程呼叫的安全性，并通过VAs的响应、个性化回答和导航服务暴露其他隐私(例如，日常日程安排、联系人、习惯和位置)。可以从音频媒体中推断出来受害人的个人习惯，进行个性化广告投放。我们将对手的能力定义如下：

Sensors Access

传感器访问。攻击者在受害者的智能手机上安装了一个间谍应用程序，打着任何合法应用程序的幌子。它无法访问麦克风等敏感传感器，但在未经受害者允许的情况下可以不断捕获IMU读数。

Sampling Rate Limitation

采样率限制。间谍软件以最高的采样率运行。但是，出于隐私考虑，IMU的频率默认限制在200Hz以下。

Attack Scenarios

攻击场景。间谍软件会不断窃听目标智能手机的顶部和底部扬声器。目标智能手机可以是静止的，也可以是移动的，通常放在桌子上或在用户手中。幸运的是，间谍软件可能不熟悉目标智能手机的型号。

IV. MODEL AND ANALYSIS

我们解释了Speaker-to-IMU侧信道的存在，并分析了噪声和硬件多样性。

A. Speaker-to-IMU Side Channel

内置IMU中的加速计和陀螺仪同时观察智能手机中的车载扬声器，使用三个各自的通道(即轴)如下:
$A(t) = k_l · M · H_a · S_m(t) + N_a, \\ G(t) = k_l · M · H_g · S_m(t) + N_g ,$
其中 $A(t)=[a_x(t)a_y(t)a_z(t)]^T$ 和 $G(t)=[ω_x(t)ω_y(t)ω_z(t)]^T$ 是无噪声和运动干扰的IMU读数， $a_j(t)$ 和 $ω_j(t)(j=x，y，z)$ 是加速度计和陀螺仪的对应轴的读数， $k_l$ 是用户决定的音量设置水平， $M$ 是扬声器的最高音量， $H_i=[h_{ix} h_{iy} h_{iz}]^T(i=a，g)$ 是具有增益系数 $h_{ij}$ 的1×3向量， $S_m(t)(m=1，2)$ 分别是顶部说话者和底部说话者发出的语音信号，而 $N_i(i=a，g)$ 是信道噪声。我们将二范数 $H_i||$ 和方向向量 $\hat{H_i}$ 标记如下，
$||H_i||(t) =\sqrt{h^2_{ix}(t) + h^2_{iy} (t) + h^2_{iz} (t)}, \hat{H_i} = \frac{H_i}{||H_i||} .$
在采样率Fs小于200Hz的IMU中，理想低通滤波器(LPF)应滤除超过100Hz的高频分量。实际上，由于LPF的转换带宽很宽，这些组件被轻微衰减，而不是完全阻塞。高频 $f$ 的分量被扭曲成低频波段 $f_L$ ，这样的现象，即混叠：
$f_L = ||f − n × Fs||, (f_L < F s/2, n ∈ N).$
混叠失真和不安全的过滤器是导致私人语音泄露到IMU的罪魁祸首。

通过基准测试验证了该模型的有效性，并论证了零权限攻击的可行性。我们用华为P40的底部扬声器播放单音，音量最大。智能手机被放在一张桌子上。该频率以1赫兹的间隔从20赫兹扫频到8千赫。我们记录了以200赫兹采样的IMU读数。加速度计在Z轴上的部分响应如图2所示。它可以拾取高达6 kHz的混叠音调。同样，陀螺仪可以接收800赫兹内的信号。无论是把智能手机放在桌上，还是用手拿着，这种现象都很明显。我们还使用如下定义的信噪比(SNR)来测量IMU对不同音量级别的车载扬声器的响应。

请添加图片描述
我们还使用如下定义的信噪比(SNR)来测量IMU对不同音量级别的车载扬声器的响应。
$10log_{10}\frac{P (T ) − P (N )}{P (N )}$
其中 $P (T)$ 和 $P (N)$ 是在有和没有语音存在的情况下传感器输出的信号功率。具体地说，我们播放150赫兹的单音信号，这是人类声音中的常见频率[7]。华为P40的顶部和底部扬声器发出的音量分别是其最大音量的20%、60%和100%。表1列出了IMU中每个轴与语音相关的响应的SNR。加速度计中的所有轴都能检测语音信号，正信噪比高达25分贝。它们遵循轴之间大致固定的信噪比差，从而推断出轴间声能的大致固定分布。这反映了 $\hat{H_i}$ 的稳定性，这来自于IMU和扬声器之间的相对位置。

虽然陀螺仪启动了语音窃听[1]，但由于与加速度计相比，陀螺仪的重要性较低[2]，[3]，[6]，因此在最近的攻击中被丢弃。通常认为，由于旋转测量的作用，陀螺仪对表面振动几乎不敏感。相比之下，实际的陀螺仪由于硬件缺陷而遭受冲击和振动。因此，陀螺仪也能够从表面振动中拾取与语音相关的信号，信噪比高达2.69 dB(见表1)。尽管在大多数情况下SNR比较低，但我们在第V-A节中进一步利用并扩展了包含语音相关信号。

请添加图片描述

此外，这些传感器对顶部扬声器显示出更高的灵敏度。尽管它们占据较低的声学强度，但离内置IMU越近，就会导致这种现象。如此高的敏感度导致了一个新的攻击面，零许可攻击可以窃取顶部演讲者的大量私人语音。它消除了在SOTA袭击中受害者必须提高扬声器音量才能听到私人演讲的不切实际的限制。

由于同步观测位置和异步采样，我们将IMU中的加速度计和陀螺仪描述为以下两个基本特征:

(a) 相干性。他们的读音来自同一个演讲，具有相同的频率和相位。这种连贯可以强调与语音相关的特征，从而实现无错误的分割。
(b) 光谱扩展。考虑到它们的相对时间偏差，我们可以在归一化后将它们组合在更宽的波段[1]。

B. Noise Analysis

在实际应用中，各种各样的噪声会使语音相关信号变得模糊。我们将噪声分为四类，并研究了它们的分布和影响。

固有噪声：我们将固有噪声简化为直流（DC）偏置和加性白噪声[44]。前者可以通过高通滤波器（HPF）直接去除，而后者向每个频带注入不规则功率。每个轴上的白噪声具有相同的分布。由于白噪声，简单的高通或低通滤波器不能抑制固有噪声的影响，特别是在分词方面。
运动干扰：运动，特别是人类活动，对惯性测量有很大的影响。这些运动信号会在加速计和陀螺仪中重叠甚至覆盖与语音相关的信号。幸运的是，这种干扰集中在低频波段。我们招募了16名年龄在18到50岁之间的志愿者来收集运动数据。他们被要求安装一个APP，记录自己智能手机的IMU读数，以200赫兹的频率采样，持续两周。他们还被指示在实验期间避免使用机载扬声器。收集的数据包括志愿者的日常运动，如步行、跑步、骑自行车和开车。虽然98.20%的能量分布在20hz以下，99.77%的能量分布在80Hz以内，但仍有0.23%的能量分布在高频频段。
和声：BA等人[2]指出了加速度计表面振动的存在。我们把这种噪音归因于谐波。回想图2，从20赫兹到60赫兹扫频的音调注入相同频率的单音，并伴随着额外的三次谐波。我们重复这个实验，将智能手机放在柔软的吸声材料上，第三次谐波消失。因此，固体表面(如桌子)的低频振动会使加速度计的读数失真，谐波能量会泄漏到发声基带。请注意，这种谐波只存在于加速度计中，而不存在于陀螺仪中。
环境噪声：环境噪声分为两类，一类是目标智能手机周围的噪声，另一类是远程呼叫者周围的噪声。前一种噪声已在现有文献[2]，[6]中进行了深入的讨论，其中它几乎不影响惯性读数。对于后者，它是从声学角度而不是从惯性角度对语音信号进行扭曲。我们将在第七节讨论一种可能的解决方案。

总之，上述几种噪声会综合影响惯性窃听。信道噪声可以重写如下：
$N_i = B(t) + N _w(t) + M (t) + N _h(t), i = a, g$
其中 $B (t)$ 为直流偏置， $N_w (t)$ 为固有白噪声， $M (t)$ 为运动干扰， $N_h (t)$ 为三次谐波噪声，但在陀螺仪中为0。为了获得清晰的语音相关数据，可以使用HPF去除 $B (t)$ 和 $N _w(t)$ 、 $M (t)$ 、 $N_h(t)$ 的低频部分。虽然对对抗性语音识别[2]的影响很小，但残余分量，如短时脉冲，会抵消基于统计的分割方法的有效性，还有绝对幅度[2]和均方根[3]等。相反，我们在章节V-B中提出了一种基于IMU相干性的有效解决方案。

C. Hardware Diversity

硬件特性的多样性是阻碍设备无关攻击的关键因素。这些特征将被训练过的网络模型记忆并用于语音恢复，从而降低了它们的可扩展性。在这里，我们研究硬件多样性的来源，以进一步抑制效应。

固有噪声：扬声器和IMU有其独特的硬件错误。智能手机[41]和[45]之间的固有噪声差异很大。
响应强度M：声音强度决定了语音相关响应的总能量。智能手机的扬声器电源不同，即使在相同的音量水平下，表现也不同。因此，每个内置IMU具有不同的响应强度。
轴向能量率： $\hat{H_i}$ 内置IMU和扬声器的位置及其相对位置多种多样。这样的多样性区分了与语音相关的能量在轴线之间的比例。例如，华为P40的加速度计中，z轴占主导，占总能量的50%左右，而三星Galaxy S8的z轴占59.4%，但荣耀V30在某些波段中，x轴占主导。
频率响应H(f)：硬件多样性会影响不同频率输入下的增益系数。
- 一方面，硬件的差异促使扬声器和IMU产生不同的固有频率响应。扬声器对IMU侧信道的响应进一步结合了各自信道的多样性。
- 另一方面，内部LPF引入了额外的衰减。虽然不能完全去除，但仍能在一定程度上抑制带外信号。这种影响取决于LPF的参数选择，IMU之间存在感知差异。此外，当语音信号在智能手机内部传播时，智能手机本身就起到了LPF[44]的作用。由于它们的大小和质量不同，过滤效果也不同。
- 上述原因导致了复杂和不规则的响应，如图3所示的两款智能手机的响应。幸运的是，传感器设计用于对带内信号的稳定响应，而LPF对低频信号不敏感。低频响应相对平滑和平坦(特别是在80 Hz和200 Hz之间)。简而言之，频率响应的主要区别在于高频失真。

请添加图片描述

采样率Fs：回顾公式3，采样率决定了混叠失真。在实践中，智能手机之间的采样率存在微小差异。这表明相同的带外语音信号在不同的IMU中会落入不同的频带。这将进一步加剧智能手机之间高频频段的分化。

总之，对手应该去除固有的加性噪声，消除轴向能量差，使响应强度归一化，并减轻高频失真。为了获得更好的跨设备性能，需要抑制硬件多样性。

V. ATTACK DESIGN

我们提出了一种实用的侧信道攻击，利用IMU对车载扬声器发出的语音信号的灵敏度进行智能手机窃听。它涉及四个模块，如图4所示。

请添加图片描述

A. Intrinsic Noise Elimination

A.固有噪声消除

固有噪声导致表I中的SNR较低，尤其是在低音量下的陀螺仪。此外，其多样性导致了较差的跨设备性能。我们应用维纳滤波器[46]来减少这种固有噪声，其目的是针对已知分布的广义平稳噪声。

当智能手机在没有外部输入的情况下静止时，例如午夜，敌人可以通过收集惯性读数来估计固有噪声分布。这种方法不需要额外的先验知识，例如智能手机模型。我们使用噪声分布对华为P40进行维纳滤波。所得SNR在实验上增加了10dB以上。特别是，即使是陀螺仪X轴在20%音量下的信噪比（表一中最低的一个）在经过滤波后也增加到了7.11 dB。它提高了语音相关信号对后续分割和识别的重要性。

B. Automatic Segmentation

一种无错误的自动分割技术是实用窃听的基础。否则，手动检查和校正是不可避免的，但很费力。我们利用加速度计和陀螺仪的相干性，从而抑制噪声和运动干扰。

如第IV-A节所述，IMU中的加速度计和陀螺仪共享相干读数。具体来说，它们遵循相同的频率和固定的相位差。相反，噪声和运动的残余高频分量是加速度计和陀螺仪之间不相关的干扰。传感器之间的噪声在频谱分布上不同，而加速度和角速度从不同的角度描述运动，并且自然是相互独立的。它们在时域和频域几乎没有同时重叠。

在上述观察的情况下，我们采用了一个乘法器来强调与语音相关的信号。它将相干分量迁移到具有二次谐波的直流频带中。这些谐波将与噪声一起被LPF去除。我们假设一个单频音调sin（2πf t）来说明它的有效性。详细地说，我们在轴之间选择具有最大能量的惯性读数，例如，通常为 $a_z（t）$ 和 $g_x（t）$ ，并通过线性插值将其上采样到1000 Hz以对齐时间戳。这样的插值既不会增加信息，也不会减轻混叠失真。接着是用于去除固有DC偏置噪声和低频运动分量的截止频率为20Hz的LPF。方程5被重写如下，
$a_z (t) = k_asin(2πf_Lt) + n_{waz} (t) + m_{az} (t) + n_{haz} (t),\\ gx(t) = k_g sin(2πf_Lt) + n_{wgx}(t) + m_{gx}(t),$
其中 $k_i (i = a, g)$ 为增益系数， $n_{waz} (t)、n_{wgx}(t)、m_{az} (t)、m_{gx}(t)$ 为高频波段内固有白噪声和相应轴上运动的残余， $n_{haz} (t)$ 为加速度计中的三次谐波噪声。相乘之后，我们有：
$a_z (t) × g_x(t) = \frac{k_ak_g}{2} + \frac{k_ak_g sin(4πf_Lt)}{2} + others$
后两项将被LPF移除。直流偏置 $k_a k_g\over2$ 显著区分了相干响应与非声音噪声。在实验中，我们在收集的惯性数据中获得了 $1.77×10^{−5}$ 的平均直流偏置。在不同的设备和设置中，偏差保持相同的数量级。相比之下，14个实验智能手机的固有噪声的平均结果保持在 $1.3 ×10^{−8}$ ，峰值仅为 $2.6×10^{−7}$ ，而第IV- B2中的运动的平均结果为 $4.5×10^{−7}$ ，最高为 $3.68×10^{−6}$ 。在实践中，我们调整Otsu算法[47]来确定语音检测和分割的阈值，以防止极高的离群值导致高加权阈值和随后的片段损失。我们将每对阈值交叉点分别向前和向后移动$\frac{fs} {5} $个样本作为切割点。图5给出了信号分割的一个示例。请注意，本小节中的所有上述过程都用于计算分割的切割点，但不适用于以下部分。

请添加图片描述

C. Device Independence Enhancement

为了使实际的窃听攻击具有更好的跨设备性能，我们通过处理去除硬件多样性导致的设备依赖特征。在V-A节中，在去除固有噪声的维纳滤波器之后，我们将重点关注轴向能量率、响应强度和高频失真。

降维。由式1可知，轴向能量差 $\hat{H_i}$ 是冗余的。它们与IMU和说话人之间的相对位置直接相关，而不是一维的语音信号。然而，只关注一个轴而放弃其他轴可能会造成潜在的信息丢失。相反，我们定义
$A^†(t) = sign(a_{max}(t))||A||(t),$
其中， $s i g n (\cdot)$ 为符号函数， $a_{max}(t)$ 为各轴间能量最大的语音相关信号。采用 $A^†(t)$ 而不是 $∣∣ A ∣∣$ ，以防止频率失真， $G^†(t)$ 遵循相同的定义。这种方法最大限度地利用了多轴，消除了轴向能量差异。

规一化。我们将 $A^†(t)$ 和 $G^†(t)$ 归一化为[0,1]。这消除了声强的影响，包括扬声器功率 $M$ 和音量设置 $k_l$ ，它还将加速度计和陀螺仪的读数规范到同一尺寸。在这里，我们根据各自的时间戳按时间顺序将它们连接起来。因此，根据奈奎斯特采样定理，我们将有效采样率加倍，并将扬声器到IMU通道的带宽从100 Hz拓宽到200 Hz。

高频抑制。高频信号被折叠成低频段。它们是由混叠引起的，不经过硬件修改就不能用数字方法分离。此外，由于人声基频(85- 255hz)，带外信号仍然包含信息。在这种情况下，我们首先利用一个截止频率为80Hz的HPF滤波器。它消除了80Hz以内的大部分低频运动以及320Hz以上混叠到低频段的高频噪声。我们没有进一步分离高频失真，而是随机删除样本并将归一化信号下采样到390Hz。它带来了双重好处。首先，它消除了智能手机之间的采样率差异。其次，虽然将带宽降低到195hz，但它加剧了高频失真[48]，模糊了硬件多样性带来的原始特征。这种随机采样删除作用于采样抖动[48]，导致以下衰减：
$SN R = −20log_{10}(2πf × rms(T_a))$
其中 $rms(T_a)$ 为随机下采样引起的孔径不确定度。它大大降低了高频响应，但对带内信号几乎没有不利影响。

D. Speech Recognition

经过处理的惯性分割被转换成244×244的灰度谱图图像，并被馈送到DenseNet[11]进行对抗性语音识别。它在前一层与后一层之间建立了紧密的连接，从而实现了特征的重用，从而减少了计算成本，提高了性能。我们选择交叉熵作为训练损失，并使用分段动量优化器对模型进行优化，丢失率为0.3。

VI. EVALUATION

我们在COTS智能手机上进行了InertiEAR，并通过大量的真实实验对其性能进行了评估。

A. Setup and Dataset

音频数据集。我们选择AudioMNIST数据集[49]，它包含来自20个扬声器的10k个位数音频。音频以0.1秒的间隔连续播放。此外，我们还招募了6名志愿者(3男3女)，让他们以平均每分钟110个单词的语速朗读10个数字和26个字母10次。

IMU读数收集。当目标智能手机放在桌子上或用手拿着时，我们分别使用车载顶部和底部扬声器播放语音信号。间谍应用程序以200Hz采样率在后台收集IMU读数台。采集到的惯性数据随机分为两部分：80%用于训练，20%用于测试。我们主要在三款智能手机上进行测试:三星Galaxy S8、b谷歌Pixel 4(基于安卓系统)和华为P40(基于安卓系统)。另外9部智能手机(包括基于ios的iPhone 11)被用来测试跨设备性能。

B. Overall Performance

在给定采样率限制的情况下，intertiEAR对语音隐私带来了极大的威胁。平均分割成功率为100%，识别准确率为78.8%。

Segmentation：我们考虑了语音速度对分割的影响。志愿者以三种速度重复记录：慢速（低于95 WPM）、平均（约110 WPM）和快速（超过130 WPM）。InertiEAR在前两种速度下成功分割惯性数据。针对快速语音，它检测到所有片段，而分割成功率略有下降，下降了1.38%。我们发现，错误片段的来源在于志愿者暂时以160 WPM以上的速度说话的连接处。这种快速的速度在日常生活或VA中并不常见，人们在共享重要信息（如密码）时通常会放慢速度。因此，所提出的方法可以在真实世界的场景中实现无错误分割。它支持实际的窃听攻击，而无需SOTA攻击所需的手动辅助或纠正。
Recognition：我们介绍了InertiEAR在不同条件下的性能，给出了200 Hz采样率的限制。图6（a）显示了在top-k预测结果内从惯性读数成功推断的比率。值得注意的是，InertiEAR的数字识别精度甚至超过了500 Hz采样的AcclEve[2]（78%），并接近4 kHz采样的Spearphone[3]（81%）。此外，我们在iPhone 11上实现了它，并通过仅60 Hz的恶意网络采样收集惯性数据。InertiEAR保持了43.7%的前1位识别准确率。我们率先在基于iOS的智能手机上实现了基于IMU的窃听，并验证了这种零权限攻击在COTS智能手机中的流行程度。

进一步研究零权限攻击在不同条件下的可行性。例如，三星Galaxy S8被放在桌子上（标记为Table），并分别放在用户手中（标记为Handhold）。图6（b）显示了当智能手机放在桌子上（标记为Table）并握在用户手中（标记为Handhold）时，其测试数字识别准确性。尽管InertiEAR在仅用一组数据训练而用另一组数据测试时表现不佳（低于25%），但在两组数据上训练时（标记为Table + Handhold），InertiEAR保持了超过70%的高识别准确率。

此外，我们还研究了顶部和底部扬声器的语音泄漏。图6（c）展示了InertiEAR对它们的威胁。与普通意义上的顶部扬声器应该用更低的功率更安全相反，它们有更严重的语音信息泄露风险。通过智能手机的声音传播距离越近是导致顶部扬声器脆弱的原因。它为零权限攻击暴露了一个新的攻击面。

在混淆矩阵中，可以看到每一个数字代表着每个真实类别被预测成所有类别的概率，那么在这么多预测结果中，按照概率由大到小排列。

top-1就是只看概率最大的那个结果，是否预测正确，将其作为top-1的结果。

top-5就是看概率最大的前五个结果，只要里面包含了预测正确的结果，就算预测正确，将其作为top-5的结果。
————————————————
原文链接：https://blog.csdn.net/LIsaWinLee/article/details/109399836

请添加图片描述

C. Scalability Study

请添加图片描述

我们在第IV-C节中阐述了设备多样性的影响，并提供了相应的解决方案。我们通过使用来自其他10部未知的智能手机的数字惯性数据测试训练后的模型，验证了InertiEAR的设备独立性。如图7所示，使用仅根据两部智能手机的数据训练的模型，我们达到了平均33.1%的卓越跨设备性能，峰值为49.8%，几乎是AccelEve[2]的两倍（最多26%）。即使使用在三星Galaxy S8或华为P40上训练的模型，InertiEAR的跨设备性能仍达到44.1%的峰值。我们提出的方法确实为InertiEAR进行设备独立攻击做好了准备。

请添加图片描述

我们验证了第V-C节中提到的每个步骤对设备独立性增强的有效性。我们使用华为P40每个过程后的中间数据分别生成识别模型。我们使用其他智能手机的数据进行测试。如图 $10^2$ 所示，随着每个过程的参与，跨设备数字识别精度都呈上升趋势。一般来说，每个过程都允许跨设备性能的提高。上述结果证实了我们提出的攻击的设备独立性。

D. Impact of Sampling Rate

请添加图片描述

上述实验证实了智能手机的脆弱性，即使内置IMU的采样率被限制在200 Hz。为了研究限制采样率对零权限窃听攻击的防御效果，我们进一步使用较低的采样率来加重InertiEAR的负担。如图8所示，我们提出的攻击的性能随着采样率的下降而恶化。然而，即使是40Hz采样率的限制仍然存在风险。InertiEAR保持了49.2%的top-1精度和超过90%的top-5精度。它打破了采样率的界限，预计采样率将限制基于IMU的智能手机窃听。

E. Impact of Volume Setting

我们进一步评估了InertiEAR在不同音量设置下的稳健性，这决定了语音相关惯性信号的信噪比。如图9所示，随着音量的减小，InertiEAR可以区分更少的数字。尽管如此，即使在最低音量的最坏条件下，它也能平均识别出一半的目标数字。此外，它保持了至少89%的top-5精度。这大大缩短了对手的整体密码搜索空间。此外，InertiEAR保持了100%的分割成功率，但当底部扬声器的音量为20%时，分割成功率略有下降1.3%。关闭底部扬声器可能是一种折衷方案，但尽管设置了音量，IMU仍会继续窃听顶部扬声器。

F. End-to-end Case Study: Password Inference

我们在密码推断中进行端到端攻击。假设受害者向远程来电者请求密码，但受害者智能手机中的车载扬声器被InertiEAR监听。对手的目标是从IMU读数中定位和识别密码。

我们假设有三种情况，目标智能手机被放在桌子上（标记为On-table），或被坐着（标记为sitting）或走路（标记为walking）的受害者手中。我们招募了四名志愿者（2名女性和2名男性）作为远程呼叫者。他们每个人都被要求通过电话告诉我们20个随机的8位密码，每个场景使用华为P40，然后是几个非数字语音（每个场景中有80个密码，总共240个）。我们首先对惯性读数进行分段，并保持91%以上的成功率。利用经过训练的二进制分类器来检测数字。考虑到受害者不会总是通过特定的单词提示对手，这种数字检测比热词搜索更实用。如表2所示，InertiEAR可以识别密码中60%的数字。它在密码窃听的实际攻击中提供了显著的密钥空间减少。结果还证明了NertiEAR对运动干扰的鲁棒性。

请添加图片描述

G. Comparison with SOTA Attacks

请添加图片描述

我们将所提出的攻击InertiEAR与表III中的SOTA技术[1]-[3]进行了比较。[Gyrophone: recognizing speech from gyroscope signals]最初研究的是陀螺仪的语音识别，准确率仅为26%。[Learning-based Practical Smartphone Eavesdropping with Built-in Accelerometer]使用500 Hz采样率将攻击扩展到智能手机的扬声器，并大大提高了语音识别的准确性。[Spearphone: a lightweight speech privacy exploit via accelerometer-sensed reverberations from smartphone loudspeakers]略微提高了识别和识别的准确性，但需要4kHz的采样率，这是不切实际的，尤其是在谷歌更新[8]之后。

尽管InertiEAR具有最低的采样率，但它以78.8%的识别准确率获得了令人满意的性能。
此外，SOTA攻击由于通用模型的智能手机硬件的多样性而受到影响。InertiEAR没有这样的问题，其跨设备识别准确率为49.8%，更不用说它还具有其他优势，如无错误分割、低音量设置下的高精度和对运动的鲁棒性。

VII. DISCUSSION

A. Further Improvement

我们使用数学模型来探测硬件多样性，实现了设备无关的窃听，跨设备识别的准确率为49.8%，但仍有很大的空间需要改进。我们认为，不同的频率响应是进一步改进零许可攻击的障碍。首先，我们使用随机下采样来减少混叠失真，但是产生的好处是有限的。尽管它淡化了带外信号的特征，但基于学习的模型仍然可能准确地从混叠分量中记住这些特征。其次，低频响应有微小的波动。这些波动也可能导致对设备的依赖。对手的一个潜在解决方案是提前使用相同型号的智能手机测量85-200赫兹的响应。这需要了解受害者的智能手机型号，但与收集大量与语音相关的惯性数据并训练另一款新型号相比，扫描单频音调所需的时间更少。至于远程呼叫者周围的环境噪声，在IV-B中，先进的语音增强技术[50]消除了这种噪声干扰。此外，老练的攻击者可能会分析环境噪声分布，并使用维纳过滤器将其消除(参见V-A)。

B. Countermeasure

我们总结了现有的防御方法，并提出了实用的方法，既不增加硬件修改，也不给用户带来不便。我们已经向相关制造商报告了窃听威胁和潜在的对策。

现有方法：
- 采样率限制和安全过滤：如VI-D所示，传感器刷新率的限制对语音隐私的保护性能较差。混叠失真和不安全的过滤器是罪魁祸首。在IMU上使用安全的模拟过滤器并实现访问控制是一种可行的解决方案。然而，前者需要对滤波电路进行硬件修改，而IMU上的低采样率和额外的访问控制[2]阻碍了它们的便利性和高效感知。
- 阻尼和隔离：另一个想法是屏蔽内置IMU免受语音信号的影响。预计它们将被物理隔离[3]或被声学阻尼材料[51]包围。然而，这些方法不实用，特别是在移动设备上进行额外的修改，空间和成本较大。
我们的解决方案：共振噪声，虽然Android、iOS和HarmonyOS没有为用户提供惯性传感器的开关，但建议用户在说话时主动使用板载扬声器来产生共振噪声，以干扰IMUs。这些共振声学，即使在低音量的情况下，也能同时在多个轴上产生显著的噪声[9]、[20]、[52]、[53]。例如，三星Galaxy S8中的加速计与图3(B)中以大约6.5 khz为中心的频率共振。这种方法阻止了基于相干的分割，并混淆了识别与对人类的微小听觉干扰，并且没有额外的修改。