Google新一代音乐辨识系统 增加音乐数据库数量

现在Android手机上的Google搜寻或是Google助理,内建了最新一代的音乐辨识功能,这源自2017年上线的Now Playing功能,但采了4倍大的深度学习神经网络来训练,嵌入(Embedding )的维度从96维成长到了128维,Google宣称,不影响辨识速度下,几乎无限制增加可辨识的音乐数据库数量。

2017年Google在其Pixel 2上推出Now Playing功能,这是基于深度学习神经网络的低功耗音乐辨识服务。Google在打造Now Playing时,目标朝向满足小型且高效的要求,数据库只需要存放非常小的音乐特征,可以让装置在没有因特网联机的状态下,提供音乐辨识服务,而手机端Now Playing应用的准确度和速度,超越了当时以服务器端系统提供的声音搜寻(Sound Search)服务。

也因此,Google采用Now Playing相同的技术,来打造新版声音搜寻功能,并内建到Android手机上,成为Google搜寻或是Google智能助理的基本功能,只要用户启用语音查询,声音搜寻服务会自动侦测背景的声音,当发现装置附近有音乐拨放,接口便会出现相关提问,引导使用者查询歌曲名称,使用者也可以直接使用Hey,Google指令查询。

原本的Now Playing功能系统非常小巧,用于手机上的搜寻,持续执行也不会明显影响电力。因为Now Playing会将侦测到的音讯撷取8秒,使用卷积神经网络将数秒钟的音讯档案转成独特的指纹特征,投影到一个由7段2秒片段组成的低维度嵌入空间,再以此特征与手机上的定期更新的脱机歌曲数据库进行比对。搜寻装置上的歌曲数据库,来辨识该数据库内的特征数据。系统会使用两阶段来搜寻歌曲,第一阶段使用快速但不精确的算法,搜寻整个数据库以找出可能的候选歌曲,第二阶段再对候选者进行详细分析,进一步找出正确的歌曲。

服务器端的声音搜寻系统运作方式和Now Playing大不相同,必须比对的数据库是Now Playing规模的1千倍,这对搜寻的准确度和速度都是很大的挑战。虽然Google使用Now Playing技术来改进服务器端的声音搜寻,但是极大的歌曲数据库,让错误预测产生的机率上升。为了降低这些错误,Google必须要增加辨识阈值,而这代表着必须要增加比对音讯的长度。Google认为,新的服务应该要比旧的更快,使用超过10秒的音讯不符合期待。文章转自:http://www.tiibs.org.tw/post.asp

不过,由于声音搜寻服务建立在服务器端,因此可以用不受限制的运算以及储存资源来弥补这些缺点。Google打造比原本还要大4倍的卷积神经网络,并且增加每一嵌入维度,从96维提高到了128维,减少了卷积神经网络将高维度音频打包成低维嵌入所需要的工作量,这对于进行详细分析的第二阶段搜寻的质量至关重要。另外,Google还根据歌曲流行的程度,对索引进行加权,越流行的音乐设定越低的权重,并增加模糊朦胧的音乐权重,整体来说,比对数据库可以几乎没有限制的增加歌曲,且不会过度影响数据辨识的速度。

Google仍继续提升辨识音乐的准度和速度,特别是在背景音的处理,因为用户辨识音乐的环境可能很安静也可能很吵杂,这也都会直接影响辨识质量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值