微信技术应用2大核心:语音和扫一扫



    我们时常听到对张小龙关于微信设计的研究,但很少注意到微信背后的技术团队。在早期版本中,由于主打信息沟通功能,微信技术上并无亮点,直到 4.3 版本之后,语音识别、扫一扫功能陆续的加入,新技术加上传感器的结合正在重新定义微信。

    在昨天的“微信•公众”合作伙伴大会上,微信发布了语音开放平台,正式跳出微信范畴,与科大讯飞、云知声等语音公司进行竞争。同时在本次大会上,微信通过展示控制冰箱、印美图、电视等设备,凸显其在物联网中发挥枢纽作用的潜力。

    微信的这些技术团队都归在模式识别中心团队里,在笔者之前的独家采访中,详细的剖析了这个团队的工作领域、在微信迭代中扮演的角色。那次采访我们还了解到了不少关于技术方面的信息,趁着这次“微信•公众”合作伙伴大会召开之际发出来。

    模式识别中心在应用层上有 2 大块,分别是语音和扫一扫,在微信团队看来,它们是人身体的延伸,有着很高的战略意义,所以必须有自主核心技术。


    语音是站在了更高的起点上

    微信语音识别给人突然冒出来的感觉,它的带队人是卢鲤,中科院博士毕业,研究方向是语音识别这块。2011 年苹果发布 Siri 后,语音一下子被大家重视起来,这其中也包括腾讯。腾讯在 2011 年底将语音识别作为科研项目在北京研究院启动,卢鲤进入腾讯带队,带领 3 个人进行攻坚。

    其实从技术上讲,老牌的科大讯飞虽然积累了十年,但是由于相关的行业论文在技术研究上已经大大进步,知识储备更齐全,所以卢鲤算是站在一个更高的起点上,可以做到速度比科大讯飞快得多。

    另外,按照云知声创始人梁家恩的说法,语音识别是“会者不难”,懂的人做起来要容易得多。卢鲤和梁家恩也互相认识,都是中科院出身,百度、搜狗的语音负责人也都是来自同门。

    当然,做技术攻坚,其中的辛苦也是不为人知。语音识别技术从简单,到可以用,再到好用,中间是一个漫长的过程。卢鲤把每半年算一个节点,从研发开始到微信 5.0 发布,总共 3 个节点,每一个节点性能都有 40% 的提升,但是直到最后那个半年,语音识别才有真正的质变。

   “这就相当于一个人吃了 9 张饼没吃饱,吃了最后一张饱了。”卢鲤说道。

    这期间,他们经历过两次封闭开发,也有过张小龙的“循循善诱”。据悉,产品上线后,用户数量上升曲线都很健康,使用率很高。

    在微信 5.0 的语音转文字功能中,很多人发现它的表现不输科大讯飞。腾讯在语音识别这块虽然起步不早(不到 2 年),但是在实际应用上已经走在了前列。


    以自然的方式融入产品

    Siri 虽然发布很成功,引爆了这个市场,但是最终却沦为用户调侃的对象,属于半成品。而语音该如何在微信中呈现,避免言过于实的现象,不仅考验着技术,还考验着产品能力。

    卢鲤认为,语音是不是入口不重要,也不在乎,在乎的是语音识别能做什么事,就像从一个地方到另一个地方,最重要的是能到达,而不是中间发生了什么。

    语音在微信中的呈现形式有三种:语音搜索通讯录、语音闹钟、语音转文字。从微信 4.3 到微信 5.0,语音的介入在一步一步深入,但同时也是受到严格限制,仅限于指定的功能,他们认为一旦放开使用范围,很容易面临华而不实的境地。

    Siri 包含了语音识别、语义识别、搜索等,形成一个闭环,大多数语音 App 也是如此,但问题是,Siri 等产品暗示着用户可以做好任何事情,在技术还没准备好的情况下,产品很容易变为鸡肋。微信的考虑是反其道行之,让用户明白只能做这些事情,不要制造额外的期待。而且语音与通讯工具的结合,天然更加默契,卢鲤觉得:“通讯录语音搜索,这在微信里是多么的自然。”

    随着微信•公众合作伙伴大会的召开,微信的语音终于平台化,并加强垂直领域的体验,这都为微信商业化缔造了机会。他们接下来的研发目标仍然是提升精准度,完善技术细节,与人脑进行“PK”。


    扫一扫的新技术有很多



    微信扫一扫负责人刘海龙

    按照扫一扫负责人刘海龙所说,扫一扫功能可以识别图像、文字、人脸、物体检索,甚至是增强现实,目前微信只推出了文字、图像识别,这是很多因素综合的结果。值得注意的是,微信扫一扫是采用视频的方式,数据在实时进行着传输,不借助本地的资源,扫一扫功能虽然是来源于之前推出的 App 搜搜慧眼,但后者仍然是拍完照再上传识别。
 
    实时自动的检测,让用户操作少了一步,就像摇一摇搜歌,结果会实时显示歌曲播放的位置。从上传后识别到实时识别,这并不是简单的技术迁移,这考验着对流量、处理速度的要求,以及云数据库搭建。这样做的好处不仅提升用户体验,而且使得前端轻,重活交给后端,以尽量让微信保持轻量化。

    在扫一扫这块,微信可以说储备了一大批新潮的技术,包括名片识别、人脸识别、实景识别、物品检索、增强现实等。现有的街景扫描中,微信是根据你的地理位置而不是图像匹配,但刘海龙说,实景扫描这个是可以做的,但问题是这一功能需要大量流量和高速传输的网络,目前还不适合上线。4G 的上马将是很多新应用的机会,目前很多的工作还在与流量较劲。

    扫一扫为何要放 5 个功能,为何二维码、条形码没有归一类?这背后同样是微信对产品设计的思考。刘海龙认为,5 个按钮清晰的告诉用户可以做什么,同时也提醒用户,只能做这些事情。扫一扫功能的理想状态应该是用户需要时出现,不需要时不出现。

    以后,如果流量问题解决了,扫一张电影海报不再是指向影评网站,而是人从画面中走出来,自动播放预告片等。另外,物品检索、商品扫描等,这些事以前 PC 都做不了。

    扫描的未来是让摄像头成为人类视觉的延伸,连接现实与虚拟世界,由于占据了极其重要的地位,微信的扫一扫很快会变得更加强大。

    可以肯定的是,很多功能内部已经在逐个测试,视成熟度、用户需求是否上线。据说微信一次版本更新前会制作几十个版本,从中挑一个最好的版本上线。甚至,他们还会制作一个搭载新功能的微信推送给 100 万测试用户,研究使用率,语音转文字功能正是这样测试通过的。

    微信快节奏的版本迭代并没有让他们工作状态太过辛苦,做前沿研究,和算法有很大关系,死憋是做不出来的,需要闲暇状态下的灵光一现,一旦想通了,做起来就快了。但由于有了微信,他们几乎是 24 小时在线,随时沟通工作。

    在采访中,他们多次提到得益于微信平台,他们的技术才能有如此大的应用空间。微信紧贴用户,通过对摄像头、麦克风以及其他传感器上进行应用挖掘,已经大大改变微信的内涵,微信不再是通讯工具,而是个人和企业的服务助手。

本文转载自中国硅谷在线-慧谷城信息港

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值