
voice agent实现方案调研
声网认为延迟很重要,所以在延迟上下了很多功夫,这种考虑是C端的用户,用户的语音输入可能使用5g和wifl进行传输,所以延迟不稳定。但是对于呼叫中心的场景,客户一般使用pstn,依赖手机运营商信号,比网络稳定,我们不需要考虑网络稳定这一因素。声网本身不做大模型,但是为了使大模型在语音领域的使用,采用级联方案,这样普通大模型也能够应用到语音领域。端到端的方案的技术应用普及,仍需要一段时间,目前级联就是最好的选择。为什么国内这些大厂在知道有端到端的方案的时候,还要在级联方案呢?腾讯的实现大体都和声网一样。










