生成式伪造语音安全问题与解决方案(下)


前言

生成式人工智能的运用也存在一些风险,例如可能生成不准确或不合适的内容,或者被用于恶意目的。在语音领域,生成式伪造语音在人机交互中的不当使用带来的安全威胁同样令人担忧。因此,针对正在发展的生成式伪造语音技术,需要同时发展伪造语音检测技术,加强治理体系建设,对技术应用进行充分评估和监管,以保证技术发展朝着正确的道路前进,确保技术应用的安全性和合法性。

在这里插入图片描述


三、伪造语音的检测技术

人类发出的声音信号是一种模拟信号,需通过麦克风等传感器转换为数字语音信号才能在计算机等电子设备中进行处理和传输。为了检测伪造语音,通常使用语音信号处理技术和机器学习算法来分析语音信号的特征和模式,将伪造语音与真实语音的特征和模式进行比较,以确定语音的真伪。

伪造语音检测可以用于声纹认证、语音取证等领域,检测语音输入的真伪性以预防语音和视频欺诈,确保语音认证系统的安全可靠,证明音频证据的真实有效性,解决本文第1节中提到的各类伪造语音滥用安全问题。

根据听力测试,人类对伪造语音的敏感性主要集中在对韵律、字词衔接与连续性等语义听感方面。目前,对伪造语音检测研究主要集中在2大类上:对伪造语音特征的研究;对真伪语音模式学习的分类器模型研究。

(一)伪造语音检测算法

伪造语音检测以特征提取作为前端操作,将数字语音信号时序采样点表示为适合分类器的声学特征输入。传统方法是人工设计的声学特征,基于信号处理的相关知识,从频域、相位域、倒谱域及相关的信号变换操作中提取声学特征。如语音频谱图、梅尔倒谱系数(Mel frequency cepstrum coefficient, MFCC)、线性倒谱系数(linear frequency cepstrum coefficient, LFCC),采用常数Q变换提取常数Q倒谱系数(constant Q cepstrum coefficient, CQCC),对相位信息进行描述的群延迟特征等。

针对伪造语音与真实语音的不同点,还可以设计韵律相关的可区分性特征。近年学者们开始使用深度神经网络学习特征表示,通过卷积神经网络及残差模块、记忆模块等,以学习真伪2类语音分布为目标,提取具有真伪可区分性的语音特征。随着预训练模型在语音类任务中的推广,也使用如Wav2Vec2。0, XLS-R等大规模自监督模型计算语音特征表示。此外,端到端模型的出现使语音特征也可以直接以采样点原始数值的方式呈现,而无需经过其他变换。

在伪造语音检测中使用的分类器是以语音特征作为输入,

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

岛屿旅人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值