Acoustics | 声音时间检测：日常声音理解

SaoYear

已于 2022-03-28 18:08:04 修改

阅读量1.6k

点赞数 1

分类专栏： Audio processing 文章标签：人工智能音频处理声音

于 2021-12-27 23:04:59 首次发布

本文链接：https://blog.csdn.net/qq_35509823/article/details/122182480

版权

Audio processing 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

前言

本文根据书籍：
Computational Analysis of Sound Scenes and Events
翻译完成，推荐大家去读原著！

开始

日常生活很少有宁静的时候，大多数情况下，都会有产生不同声音的事件不断出现，在时频域上重叠后通过传入麦克风或我们的耳朵，它们可能是从远处传来的，或被反射的，或被障碍物衍射后的声音信号。这种复杂的声学阵列(acoustic array)即构成了声音场景(auditory scene)。

比如，幻想你在家里和朋友孩子享受假期。这时的声音场景是非常集中和嘈杂的，它可能由不同的对话和噪声组成。然而，作为倾听者的你却有能力解析这个特定的场景：你可以从嘈杂的背景中轻易区分并识别出不同的声音事件(sound events)，它们可能是不同的对话、背景音乐、碰杯声，甚至是孩子玩闹是弄出的古怪爆破声。听你一边朋友的对话，或者在听听另一边朋友又聊了什么，你甚至能同时听着你孩子闹出的动静，别让他们捅了篓子。这是典型鸡尾酒吧效应(cocktail party effect)。

本节的主要目的在于描述这些不同时间的潜在物理属性，并对一些基本的心理声学概念做出总结，同时我们也会概述一些声学认知模型，阐述他们具有哪些处理、解析和从声音场景中，感知声音时间的能力。

虽然人对语音和音乐的感知已经在很长的一段时间内，被当作正式的研究目标，但日常场景和事件的感知的研究才刚刚起步 (Everyday listening)。这里，日常信号指的是非音乐，非语音的，发生在日常环境中的声音信号。日常听觉最主要的特征就是其以认知为目标—即其研究的主要目标是感受听众身边的环境，和发生的事情。它通过区分和识别不同的声音时间，来对不同的声音环境（场景）进行划分。相较而言，音乐感知更注重音乐信号的声音质量（或音色），而不对声源做精确识别；语音听觉主要着手于解码语音中暗含的语言信息，和对说话人进行识别，包括说话人的身份、性别、情绪等。

SaoYear

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Acoustics | 声音时间检测：日常声音理解

前言最近闲来无事，好不容易有个长假期，准备利用这个假期整合一下现在已知的声音信号处理及语音处理的一些知识。主要是个人巩固之用，内容中一定包含了很多不完整的内容和不够严谨细致的推导。希望系统性学习的读者还是去专注于比较严谨的学术专著。这一系列的专栏仅供参考，并分享自己在声音上的理解。如有错误请多多指正。声音信号的认识声音信号...
复制链接

扫一扫