一年一度的国庆又到了,地图大战最激烈的时刻也来了。
为什么这么说,因为国庆七天长假是一年里最大的旅游旺季,去年国庆全国游客总人数达3亿人次,目测今年会比这些数字更多,在这个堪比春节红包大战的节日里,各家都使出了浑身解数。
如果各位有印象的话,应该还记得去年国庆我写的那篇《在谷歌大本营用百度地图可还行,事实证明非常行》。
百度地图在境外旅游这块花了大力气,不但POI非常精准和丰富,中文化也非常棒,除了旧金山之外,像蒙特雷,吉尔罗伊这种小众地方都配有中文地名,餐饮酒店问路卡公交甚至翻译都有,秒杀所有境外游产品。
今年百度地图在个性化语音下了大力气,在国庆之前悄悄放了一个大招:只用20句话,就能个性化定制一个和真人声音一模一样的语音包。
不是想象的录什么播什么,而是根据你上传的语音素材,就能生成一个能模拟你所有说话内容的语音包,听上去是不是很神奇?
这个功能我也是偶然间使用百度地图才发现的,新版本的地图在左上角上线了语音定制的按钮,点击这个按钮,或者喊出“小度小度-录制我的语音”就打开了录制界面。
说起来非常简单,就是跟着指引念20句话。
大概过程就是这样子。
然后百度地图会上传数据,这个时间大概要20分钟。
学习之后,点击下载使用,就能播放自己的语音包了。
强调一下,这个语音不光可以导航,还可以用在其他地方,比如可以直接设置成小度的声音。
说实话,听到一个和自己声音一模一样的小度问我问题,还是有点惊讶的。
不光可以自己用,还可以上传到官方平台,供其他用户下载,官方提供了人气、模仿、乡音、童声、好声音五个频道。比如我就看到有不少用户上传了自己的语音包,还可以打榜,但估计我这个中年老男人的声音应该没什么人欣赏。
不过,用户上传了自己的语音包自然会涉及到音频数据的安全问题,在这个方面,百度地图还有表态说明的,平台对于语音定制服务的权限获取将仅用作语音包录制,不做他用,未经用户的授权同意,也不会将用户的语音包共享给任何人。
另外,除了自己的语音包之外,百度地图还提供了之前官方出品的语音包,比如汤唯,包贝尔,流浪地球等语音包,相当于把之前的热门语音包重新打包一遍。
我觉得最骚最好玩的是模仿频道,里面有用户上传蜡笔小新模仿秀,有杨幂模仿秀,甚至还有海绵宝宝和葫芦娃的模仿秀,我自己仔细听了几个,真的惟妙惟肖,我猜测应该是在收集声音时就模仿这些动漫游戏人物的语气,然后再让机器去学习合成,最后出来的结果也非常有趣。
目前来看这个功能应该还需要平台审核所以放出来的用户语音包还不多,但我觉得未来这个模仿秀可能会成为一个小小的爆款,我有一种预感,借助AI的能力,很有可能裂变孵化出一个语音变音的新产品。
说了这么多,来说一下我的感受和看法。
首先,语音导航这个产品,也经历了几代的发展。最早语音导航都是电脑合成的机器人声音,识别起来没问题,但音色很怪,自从高德引入林志玲语音之后,百度和高德都开始发力真人语音。
比如在《流浪地球》大热的时候,百度地图拿下了流浪地球的语音包,在魔兽世界怀旧服开服的时候,高德上线了魔兽世界怀旧服的语音包(我用过,体验很一般)。
我个人看法是,地图在POI等基础底层服务和技术框架搭建完毕后,LBS精准率,反馈度,包括道路信息更新等层面的竞争已经基本结束了,也就是在基础服务差距不大的前提下,百度和高德开始通过语音包等体验性产品去获取用户,从大明星到大IP,基本上能圈住不同层面的受众和粉丝,这被视为获得市占率的一个有效方法。
这也是为什么百度和高德都开始发力真人语音的原因。
坦白来说,高德在真人语音包做的早,优势比较大,但百度个性化语音包一出,我觉得这个战场已经被终结了。
原因很简单,倒不是所谓“自恋”、迷恋自己声音的人很多,而是用自己老婆/老公,尤其是宝贝儿子女儿声音做导航的刚需,要远远大于明星游戏动漫IP的刚需。
谁不想多听听自己女儿儿子的声音?
本质上来说,人们用语音包的心理,其实和手机壳差不多。
语音在现在交互大多以对话为主的场景已经成为了刚需,语音包其实是一个“配件”,随着语音技术的不断提升,那么语音包也要随着升级,这就好比最早的手机壳都是硅胶套,但随着手机的发展,手机壳的材质,形状,包括图案已经千变万化了。
手机壳已经上升到一个品位层面,你用什么样的手机壳,某种程度上决定了你是一个什么品位的人。
而语音包亦是如此,语音包也决定了你的某种特质和趣味,而亲情是最大的公约数。
我相信没人在家里没事打开百度地图吧?出门在外,开车导航,你最大的诉求是什么?
我觉得是亲情,家庭。我每次坐飞机飞行状态,无聊了就会打开相册看看自己家的狗和女朋友,这就是一种很典型的情感流露。
百度的个性化语音包很好的抓住了这个一直被隐藏的需求。
(百度地图事业部总经理李莹)
发布会现场李莹讲述了一个百度地图语音定制功能的玩法,她表示自己在开车过程中会询问百度地图语音助手“小度小度,你爱我吗?”,小度就会用她女儿的声音进行回答,十分温暖。
我觉得这才是语音定制玩法最大的胜利点。
其次,这个个性化定制语音包的技术不管是从技术层面还是从创新性,都是目前业界最强的。
(百度语音首席架构师贾磊)
个性化语音包说白了就是技术普惠,利用人工智能将门槛降低到普通人层面。在过去,制作地图语音包需要在专业录音棚录制大量语料,再经过长达数月的制作才能生成,流程复杂、耗时长,基本上是只有明星才能享有这个待遇。
而现在,普通用户只要打开百度地图,就可以录制属于自己的语音包,这不能不说是一种极大的进步。
从技术上来说,只需要20句话就能完整模拟一个人的声音,语速,包括语态,这个技术实现的难度还是很大的,这也是为什么有很多明星语音包,但几乎没有针对普通人的语音包服务。
而百度定制语音背后是百度独创的Meitron韵律迁移技术,主要是音色转换,多情感朗读以及韵律风格三个方面。
说简单点,这个技术最大的难度是如何将说话人声音和情感进行分离,但同时又能保留个性化部分,最后合成出来的声音既保留了个性化,又和共有声音完美融合。
这就涉及到所谓的深度学习以及大数据,数据训练不难,但难的是需要同时支持数以万计的用户同时上传自己的声音,这背后需要大量的GPU以及数据平台的支持,而这个技术恰恰是非常困难的,过去需要一个月时间才能出结果,现在20分钟就行了。
眼下国庆即将来临,我相信应该会有不少人在携家旅游的途中,用上这个贴心的语音定制功能吧。