既然人可以通过一定的训练掌握唇语(lipreading),那么相信计算机一样能做到,只需要监视唇部运动,通过深度学习实现;这样我们可以给电影自动配语音和字幕;
更进一步,人类通过喉咙,嗓子的震动来发声,那么通过颈部的喉咙震动传感器,使用深度学习的办法可以间接的转化为语音和文字,这种震动就是生物天然形成的莫斯电码。
单纯的语音识别准确率偏低,可以结合唇语共同完成识别。
既然人可以通过一定的训练掌握唇语(lipreading),那么相信计算机一样能做到,只需要监视唇部运动,通过深度学习实现;这样我们可以给电影自动配语音和字幕;
更进一步,人类通过喉咙,嗓子的震动来发声,那么通过颈部的喉咙震动传感器,使用深度学习的办法可以间接的转化为语音和文字,这种震动就是生物天然形成的莫斯电码。
单纯的语音识别准确率偏低,可以结合唇语共同完成识别。