Google AI 博客：Hum to Search 项目，使用机器学习来识别随口哼唱的旋律-CSDN博客

本文链接：https://blog.csdn.net/qq_30404573/article/details/109854232

Google推出了Hum to Search项目，利用机器学习技术来识别用户哼唱的旋律。此系统克服了匹配哼唱旋律与原始录音的挑战，无需依赖歌曲的哼唱或MIDI版本。它通过训练神经网络处理哼唱录音，生成的模型可以从大量歌曲中直接匹配原始录音。经过数据增强和训练改进，模型在包含50万首歌曲的数据库上实现了高准确性，帮助用户无需记住歌曲名称就能查找音乐。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

卡在您脑袋里的旋律通常被称为“耳虫”，这是一种众所周知的，有时会令人烦恼的现象-一旦“耳虫”在那里，就很难摆脱它。研究发现当你重新接触到原曲时，不管是听或唱，将消除“耳虫”的烦恼。但是，如果您不太记得歌曲的名称，只能哼出旋律，该怎么办？

随口哼出来的旋律与其原始的和弦录音室录音相匹配在目前现有方法看来是有若干挑战的。使用歌词，背景人声和乐器，音乐或录音室录音的音频可能与随口哼出来的音乐完全不同。无论是出于错误还是出于设计目的，当有人在哼唱歌曲时，其音调，键，速度或节奏通常可能会略有变化，甚至可能有很大差异。这就是为什么这么多现有的通过哼唱进行查询的方法会将哼唱的曲调与歌曲的仅现有旋律或哼唱版本的数据库进行匹配，而不是直接识别歌曲。但是，这种类型的方法通常依赖于需要手动更新的有限数据库。

Hum to Search 于10月推出，是Google Search中一种全新的完全机器学习的系统，该系统允许人们仅凭单调的歌词来查找歌曲。与现有方法相反，此方法从歌曲的频谱图中嵌入了旋律，而没有产生中间表示。这使模型可以将哼唱的旋律直接匹配到原始（和弦）录音，而无需每个轨道的哼唱或MIDI版本，也不需要其他复杂的手工工程逻辑来提取旋律。这种方法极大地简化了Hum to Search的数据库，使之可以不断嵌入来自世界各地的原始唱片（甚至是最新发行的唱片）进行刷新。