1. 图像和声音联合检测可以帮助更好的进行声音的识别;
例如Audeo: Audio Generation for a Silent Performance Video 这篇文章,通过视频输出midi 伴奏,然后再生成音乐。
2. 关于评价的维度
可以参考:Online Audio-Visual Source Association for Chamber Music Performances 这篇文章
系统设计:输入 手机视频、输出弹奏的midi, 并且里面还嵌入关于动作的描述,可以定义为,finguring-midi... 然后评价的维度:
第二阶段:通过动作生成伴奏音乐,AIGC 方向
第三阶段:真人伴奏,可以参考AR pianoist 的思路,直接正确的弹奏。