论文理解——Audio Adversarial Examples:Targeted Attacks on Speech-to-Text

最新推荐文章于 2024-01-14 17:12:50 发布

Arielwyy

最新推荐文章于 2024-01-14 17:12:50 发布

阅读量3.5k

点赞数 9

分类专栏：论文学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42372980/article/details/89818181

版权

0-Abstract

本文构建了有关语音识别的定向语音对抗样本，给定任意音频波形，可以产生99.9%相似的另一个音频波形，且可以转录为所选择的任何短语。作者将基于白盒迭代优化攻击应用于DeepSpeech模型（端到端语音识别），实验显示，它具有100%的成功率。

1-Introduction

1.1Existing work

当前对对抗样本的研究大多基于图像空间，包括图像分类、图像生成模型、图像分割、面部检测等，而在音频空间研究较少，其中最常见的是自动语音识别。其中最先进的定向语音识别攻击是一种名为Houdini的新型方法，它只能构建和语音对抗样本语音相似的短语

1.2Contributions

在本文中，作者通过攻击DeepSpeech模型证明了定向对抗样本攻击存在于音频空间。通过给定任意自然波形x，能够构造几乎听不见的扰动δ，但是x +δ被识别为任何期望的短语。由任意声波开始，通过把语音嵌入不被识别为语音的音频中，通过选择silence作为目标，可以实现隐藏音频到语音to文本系统中

2-Background

2.1Neural Network & Speech Recogniton

将音频视为N维向量x，每个元素xi是一个有符号的16位值，MFC将音频分为50帧每秒，并且将每帧映射到频域。

标准的神经网络分类模型采用一输入并在所有输出标签上产生一个概率密度输出，而语音to文本系统中，有指数级可能的标签，这是计算上不可行的。因此，语音识别系统通常使用递归神经网络，将音频声波映射到单个字符概率分布序列，而不是整个短语。

2.2Connectionist Temporal Classication

Connectionist Temporal Classication是在输入和输出序列之间的比对未知时训练序列到序列神经网络的方法。

X：输入域——单帧的输入

Y：范围（字母a-z，空格，ε）

f：神经网络 f:X^N-->[0,1]^(N·|Y|）以N帧x∈X的序列作为输入，并在每个帧的输出域上返回概率分布。

：xi∈X，其标签j属于Y的概率

p:代表一个短语，一系列的字符<pi>，其中pi属于Y

定义：

1）去除所有连续重复的字母

2）去除所有的ε

e.g. 序列 a a b ε ε b将被处理为 a b b

同时，我们可以得到

从而，

用于训练网络的损失函数是所需短语的负对数概率：

最后，为了将矢量y解码为短语p，我们搜索最适合y的短语p：

最低0.47元/天解锁文章

博客等级

码龄7年

20
原创

96
点赞

229
收藏

35
粉丝

关注

私信

热门文章

分类专栏

最新评论

51单片机 stc-B板学习——八位数码管动态显示
做而论道_CS: 数字滚动显示的汇编程序。 ORG 0 JMP BG ORG 11 MOV TH0, #248 MOV P0, #0 INC B MOV P2, B MOV A, B ANL A, #7 ADD A, #30H MOV R0, A MOV P0, @R0 MOV R0, B CJNE R0, #0, E_T0 MOV R0, #39H MOV A, @R0 LP: DEC R0 XCH A, @R0 CJNE R0, #30H, LP MOV 39H, A E_T0: RETI BG: MOV TMOD, #1 MOV TH0, #255 SETB TR0 MOV IE, #82H MOV 30H, #3FH MOV 31H, #06 MOV 32H, #5BH MOV 33H, #4FH MOV 34H, #66H MOV 35H, #6DH MOV 36H, #7DH MOV 37H, #7 MOV 38H, #7FH MOV 39H, #6FH SJMP $ END 是不是很简单？
vhdl综合设计项目总结—倒车雷达项目设计
佳佳专砖: 大佬，声音控制那里的voice模块没给全，能不能补一下？
深入探讨浮点数舍入问题
chen_soso: 谢谢，解惑了
vhdl综合设计项目总结—倒车雷达项目设计
lxb_huge: 不是，74161是库里面有的可以直接调用的。
51单片机项目设计——价格猜猜猜
20％: 这个电路图有没有清晰点儿的啊？

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。