文章目录
前言
生成式人工智能的运用也存在一些风险,例如可能生成不准确或不合适的内容,或者被用于恶意目的。在语音领域,生成式伪造语音在人机交互中的不当使用带来的安全威胁同样令人担忧。因此,针对正在发展的生成式伪造语音技术,需要同时发展伪造语音检测技术,加强治理体系建设,对技术应用进行充分评估和监管,以保证技术发展朝着正确的道路前进,确保技术应用的安全性和合法性。
三、伪造语音的检测技术
人类发出的声音信号是一种模拟信号,需通过麦克风等传感器转换为数字语音信号才能在计算机等电子设备中进行处理和传输。为了检测伪造语音,通常使用语音信号处理技术和机器学习算法来分析语音信号的特征和模式,将伪造语音与真实语音的特征和模式进行比较,以确定语音的真伪。
伪造语音检测可以用于声纹认证、语音取证等领域,检测语音输入的真伪性以预防语音和视频欺诈,确保语音认证系统的安全可靠,证明音频证据的真实有效性,解决本文第1节中提到的各类伪造语音滥用安全问题。
根据听力测试,人类对伪造语音的敏感性主要集中在对韵律、字词衔接与连续性等语义听感方面。目前,对伪造语音检测研究主要集中在2大类上:对伪造语音特征的研究;对真伪语音模式学习的分类器模型研究。
(一)伪造语音检测算法
伪造语音检测以特征提取作为前端操作,将数字语音信号时序采样点表示为适合分类器的声学特征输入。传统方法是人工设计的声学特征,基于信号处理的相关知识,从频域、相位域、倒谱域及相关的信号变换操作中提取声学特征。如语音频谱图、梅尔倒谱系数(Mel frequency cepstrum coefficient, MFCC)、线性倒谱系数(linear frequency cepstrum coefficient, LFCC),采用常数Q变换提取常数Q倒谱系数(constant Q cepstrum coefficient, CQCC),对相位信息进行描述的群延迟特征等。
针对伪造语音与真实语音的不同点,还可以设计韵律相关的可区分性特征。近年学者们开始使用深度神经网络学习特征表示,通过卷积神经网络及残差模块、记忆模块等,以学习真伪2类语音分布为目标,提取具有真伪可区分性的语音特征。随着预训练模型在语音类任务中的推广,也使用如Wav2Vec2。0, XLS-R等大规模自监督模型计算语音特征表示。此外,端到端模型的出现使语音特征也可以直接以采样点原始数值的方式呈现,而无需经过其他变换。