Google新一代音乐辨识系统增加音乐数据库数量

最新推荐文章于 2023-04-20 14:41:01 发布

自在过生活

最新推荐文章于 2023-04-20 14:41:01 发布

阅读量266

点赞数

现在Android手机上的Google搜寻或是Google助理，内建了最新一代的音乐辨识功能，这源自2017年上线的Now Playing功能，但采了4倍大的深度学习神经网络来训练，嵌入（Embedding ）的维度从96维成长到了128维，Google宣称，不影响辨识速度下，几乎无限制增加可辨识的音乐数据库数量。

2017年Google在其Pixel 2上推出Now Playing功能，这是基于深度学习神经网络的低功耗音乐辨识服务。Google在打造Now Playing时，目标朝向满足小型且高效的要求，数据库只需要存放非常小的音乐特征，可以让装置在没有因特网联机的状态下，提供音乐辨识服务，而手机端Now Playing应用的准确度和速度，超越了当时以服务器端系统提供的声音搜寻（Sound Search）服务。

也因此，Google采用Now Playing相同的技术，来打造新版声音搜寻功能，并内建到Android手机上，成为Google搜寻或是Google智能助理的基本功能，只要用户启用语音查询，声音搜寻服务会自动侦测背景的声音，当发现装置附近有音乐拨放，接口便会出现相关提问，引导使用者查询歌曲名称，使用者也可以直接使用Hey,Google指令查询。

原本的Now Playing功能系统非常小巧，用于手机上的搜寻，持续执行也不会明显影响电力。因为Now Playing会将侦测到的音讯撷取8秒，使用卷积神经网络将数秒钟的音讯档案转成独特的指纹特征，投影到一个由7段2秒片段组成的低维度嵌入空间，再以此特征与手机上的定期更新的脱机歌曲数据库进行比对。搜寻装置上的歌曲数据库，来辨识该数据库内的特征数据。系统会使用两阶段来搜寻歌曲，第一阶段使用快速但不精确的算法，搜寻整个数据库以找出可能的候选歌曲，第二阶段再对候选者进行详细分析，进一步找出正确的歌曲。

服务器端的声音搜寻系统运作方式和Now Playing大不相同，必须比对的数据库是Now Playing规模的1千倍，这对搜寻的准确度和速度都是很大的挑战。虽然Google使用Now Playing技术来改进服务器端的声音搜寻，但是极大的歌曲数据库，让错误预测产生的机率上升。为了降低这些错误，Google必须要增加辨识阈值，而这代表着必须要增加比对音讯的长度。Google认为，新的服务应该要比旧的更快，使用超过10秒的音讯不符合期待。文章转自：http://www.tiibs.org.tw/post.asp

不过，由于声音搜寻服务建立在服务器端，因此可以用不受限制的运算以及储存资源来弥补这些缺点。Google打造比原本还要大4倍的卷积神经网络，并且增加每一嵌入维度，从96维提高到了128维，减少了卷积神经网络将高维度音频打包成低维嵌入所需要的工作量，这对于进行详细分析的第二阶段搜寻的质量至关重要。另外，Google还根据歌曲流行的程度，对索引进行加权，越流行的音乐设定越低的权重，并增加模糊朦胧的音乐权重，整体来说，比对数据库可以几乎没有限制的增加歌曲，且不会过度影响数据辨识的速度。

Google仍继续提升辨识音乐的准度和速度，特别是在背景音的处理，因为用户辨识音乐的环境可能很安静也可能很吵杂，这也都会直接影响辨识质量。