老罗推荐的讯飞语音,有这些 know-how | 硬创公开课

老罗推荐的讯飞语音,有这些 know-how | 硬创公开课

据说,看了锤子手机发布会的人,印象最深的就是老罗演示讯飞语音输入那一段(从视频的第100分钟开始)。很多人表示自己受到了深深的震撼。但“震撼”之余,我们也应该冷静下来,清醒地认识到语音输入的春天,在科技史上已经来过 N 次了。究竟是什么,让2016年的语音输入变得不一样,让讯飞的语音输入变得不一样?

为了解答这个问题,雷锋网请来了讯飞输入法产品总监,或者用时髦的说法“讯飞输入法之父”,为大家解解馋。 雷锋网雷锋网雷锋网

嘉宾简介

翟吉博,讯飞输入法产品总监。2009年以码农的身份加入科大讯飞,2010年创建讯飞输入法并担任产品总监至今,参与了讯飞输入法从0发展到4亿用户的全过程,曾经3天时间就写出了讯飞输入法的Demo,目前讯飞输入法月活跃用户超过1亿。

背景介绍:

湖北黄冈人,毕业于上海交大

2009年,以码农身份入职科大讯飞

2010年创建讯飞输入法,并担任产品经理至今

也许是最会写代码的产品经理

老罗推荐的讯飞语音,有这些 know-how | 硬创公开课

问答精华回顾:

Q1

雷锋网(公众号:雷锋网):很多大公司的重要产品,起初可能只是几个员工的小尝试,比如 Google 的很多产品是这么诞生的。那么对于讯飞来说,做输入法的契机是什么,这个产品是怎么诞生的?

讯飞翟吉博:关于讯飞输入法的诞生,这里给大家讲一段故事。2010年的时候,当时我在讯飞研究院,我记得iPhone4发布的当天晚上,我跟我上级,就iPhone4做了一个讨论,我们认为,iPhone上基于触屏的全键盘输入体验,不太好。原因在于屏幕太小,而手指又像,一根萝卜那么粗。经过脑暴,我们考虑到,把讯飞的语音技术结合到输入上来。完了我就自己动手开始做,很快就出了一个demo,因为我原来是做过手写识别,还有拼音的这个技术,所以这个demo也包含了,语音手写还有拼音的功能。

这个demo拿出来给他老大看,他觉得,不能仅仅是做个demo,后面我们就对市场进行,研究和分析,写了一个立项书,而且在公司层面也获得了通过,其实我们组建几人的小团队在杭州封闭开发了三四个月,然后在10月28号,我们对外发布了第一个版本。

Q2

雷锋网:外界看来,讯飞是一家toB业务为主的公司,做 toC 的产品,最需要突破的地方是什么?

讯飞翟吉博:我认为最需要突破的地方,还是在思维方式以及配套的团队体系方面。从面向行业客户到直接面向消费者的,需要更多的去考虑用户的需求。然后整个团队的开发运营推广的流程和体系需要重新构建。

在2011年的时候,讯飞,面向消费者成立了一个移动互联事业部。现在,讯飞输入法就在这个部门下面。我们部门其他的产品还有,灵犀语音助手(前身叫讯飞语点)、在几年前iPhone上推出的一款叫讯飞口讯的,也风靡一时当时曾经,在app store的排行首位。讯飞输入法的团队,在这几年也有一个很大的发展从最早,只有几个人的,小的开发团队,现在发展到包含了从前到后,完整的职能,一共接近二百人。

Q3

雷锋网:讯飞输入法早期的用户群和使用场景有什么特点?

讯飞翟吉博:我们早期的种子用户,有个典型特征都是偏极客的,他们对语音技术关注度比较高,有不少用户提到他们原来在电脑上,就体验使用过IBM的语音技术。然后他们,会全天候的,不停的来测试我们的系统,并且提出各种各样的设想和改进意见。

Q4

雷锋网:讲真,这次讯飞的语音输入法被老罗猛推了一把,你和你的小伙伴们是一种怎样的感受?

讯飞翟吉博:其实我们事先真没想到,老罗是以这样的一种演示方式,足足给了我们这么长的时间,从现场,观众的热烈响应,还有网络上的,热烈反响,给了我们团队充分的信心。

至于数据嘛,这个请大家看一下,app store的排行榜,短短几天,我们现在已经在(免费)总榜上冲到了第三,在工具(免费)榜上已经,排在了第一。在华为,小米等应用商店下面,也看到很多用户的评论,都是和老罗的发布会有关。

Q5

雷锋网:一些懂行的人告诉我们,其实老罗在台上演示的两段内容输入,还是非常有局限性的,说的几乎都是常用语,换言之就是机器最容易识别的东西。里边没有任何专有词汇,中英混杂,同音字等等等等。你们怎么看?

讯飞翟吉博:其实老罗现场也提到了在那样的一个环境下做语音输入的演示,本来就是一件很有挑战的事情,因为环境的噪声还有回声的干扰,对于技术来说,是比较困难的一个问题。另外大家可以关注到老罗的一个非常即兴的方式,它的语料是很开放的,而且语速也很快。这种方式相比封闭的,比如说绕口令的,这种语料,难度其实大很多。

当然对于专有词汇还有中英文混合这些,也会加大识别的难度。我理解老罗,也是想保证现场的效果,所以,在即兴的语料上,没有加大这方面的难度。

Q6

雷锋网:所以,语音输入的春天真的又来了吗?我们报道科技很多年,其实每隔几年人们就会提语音输入的突破,但到头来会发现,路还很长,需要技术的突破也需要整个大环境的变化。你们在语音输入的一线,讲讲你们的感觉吧?

讯飞翟吉博:那根据我们现在的理解,目前的语音技术的应用,可能还是主要分为这几个场景:

  • 第一个是在即时通讯应用里边。作为比较实用的就是把语音转成文字;

  • 第二个是语音搜索,他和前者的区别,更多的是一些关键词的匹配;

  • 第三个就是在类似siri这样的语音助手中,做上下文的对话以及理解。

那其实我们输入法在第一种应用,当中可以看到,整个的语音用户占比的发展趋势,从最早的每天几个百分点,到现在接近20%,有些语音用户已经养成非常稳定的使用习惯,而且这个趋势仍然在增长中。我认为这个比例现在还没有到达,应有的用户覆盖。不过另一方面,我们认为基于手机这种触屏为主的设备,语音不会是完全主流的,那在下一个万物互联和vr设备流行的时代,我相信语音技术的春天会,真正到来。

Q7

雷锋网:语音输入的技术突破有多大?给详细讲讲。

讯飞翟吉博:从这几年发展来回顾,语音输入技术可以分为几个阶段:

第一个阶段。在我们,10年刚推出的时候,整个的识别率是初步的达到了使用门槛,字正确率只有70%多还不到80%;

第二个阶段。那随着用户越来越多积累了大量的数据,通过大数据的训练来驱动,使得整个的识别效果稳步的提升,能够到达90%出头。

第三个阶段。2012、13年的时候,那我们,使用了深度学习算法之后,再结合大数据的训练,使得正确率又有了,更大的突破。

其实,老罗发布会上宣传了97%这个数字,我们达到这个数字其实已经有一两年时间了。

Q8

雷锋网:讯飞的语音输入强在哪儿?

讯飞翟吉博:首先要说,深度学习算法出来并相继普及之后,对于安静的环境下,日常的句子,大家的语音技术基本都达到了实用的水平。讯飞相对深入的地方表现在,三个方面:

第一,对于口音的适配。我们知道,在中国说普通话的口音是非常广泛的,那对于不同的口音语音识别的效果,影响很大,讯飞对于各地的口音都有很好的适用,而且对于一些典型的纯正的方言也能够识别;

第二,对于抗环境的干扰方面。比如说在开车的时候,如果开着窗户,那个噪声是非常大的,讯飞是目前通过国际大车厂测试唯一达到实用水平的,技术提供商;

第三,对于网络的依赖方面。我们能够提供在线和离线无缝结合的方案,而且在离线的识别上面,也达到了很高的识别效果。

Q9

雷锋网:讲一个你和你的小伙伴得意的,关于产品细节的思考吧?

讯飞翟吉博:还是说一下刚才提到的关于在线离线无缝结合的方案吧,那其实我们刚开始推出离线语音的时候就考虑到,在线语音的优势是足够精准,离线语音的优势是比较可靠,我们能不能在用户网络不太稳定的时候,能智能地做一个识别和判断,把两者的优势有一个很好的结合,所以我们现在在产品上,会实现一个从在线到离线智能切换的策略,这也算是一个比较贴心的细节。

Q10

雷锋网:iPhone 平台和 Android 平台,在产品设计上,有怎样不同的考虑?另外,那个牌子的手机更能发挥讯飞的语音能力?

讯飞翟吉博:首先考虑的是在视觉和交互的规范上,我们会遵循iPhone和安卓系统特定的规范,比如说在iPhone系统上保留的地球键,又比如说视觉的风格,这些我们不会,强制去做,两个平台的完全统一,其次也要考虑系统的能力和特性上的区别,比如说iPhone系统对于输入法键盘的录音权限做了限制,所以我们现在迫不得已也只能采用,跳转的方式来实现语音输入,当然iPhone也有它的优势,比如我们可以利用3d touch,来实现利用输入法键盘做很方便的光标移动,这个功能在需要定位修改文字的时候比较方便。

语音输入对于不同手机来说,更多的是看录音质量的区别,现在很难笼统地说哪个牌子的手机效果好基本上,采用了双mic或者是多麦克,然后降噪效果做的不错的手机,对语音输入效果都有很大的帮助。

Q11

雷锋网:语音输入若想起到更大的作用,被更广泛地使用,你觉得还应该在哪些方面有所突破?

讯飞翟吉博:首先,在市场教育和用户习惯培养方面,我觉得罗老师给了我们很好的启发,比如说从大家比较熟悉的,用微信发语音的场景,让大众明白通过语音输入文字和直接发语音的区别。

另外,在产品和技术本身,我们觉得在个性化方面有很大的发展空间,因为现在每个人或多或少都有独特的发音习惯和用词习惯,未来的语音输入可以为每个人量身打造越用越好,我们现在已经在输入法里,通过个人账号实现了,通讯录人名和定制词库的个性化识别,将来还将实现,更深入的个性化功能。

Q12

雷锋网:最后分享一下你的语音输入使用习惯吧?

讯飞翟吉博:我个人使用语音的过程,也大概经历了几个阶段,可能也代表了不少用户的路径。

第一个阶段。主要还是在克服自己的心理障碍,一开始总是觉得用语音对着手机说话,感觉有点傻,只敢一个人的时候用。

第二个阶段。那后面在大街上也经常看到有人用对着微信发语音,好像大家也习以为然了,所以心里的障碍慢慢的有所克服,这个阶段更多的是对语音识别效果的调校,自己想想怎么样能说得更准,而且怎么样能有一些方面的修改。

第三个阶段。也就是现在的阶段,可以说已经达到一个老司机的水平了,可以相对比较得心应手的使用,特别是在移动的状态下,基本上就靠用语音了。


【唯物】开通读者交流群啦!如果你对相关话题感兴趣,欢迎入群切磋。入群方式:添加微信LF-gkk,备注个人信息附上【唯物】,审核通过之后我们会拉您入群。唯物公众号 okweiwu。


本文作者:硬创公开课


本文转自雷锋网禁止二次转载,原文链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
use java language ,In this project you need to write a book lending system for a Library. The system has different roles for registered users. There are two types of user roles: borrower and lender. Write an IUser interface for library users, with the following UML specification: +----------------------------------+ | <<interface>> | | IUser | +----------------------------------+ | + getName(): String | | + getBook(): int | | + moreBook(int number): void | +----------------------------------+ and a User class that implements IUser and has the following UML specification: +-----------------------------------+ | User | +-----------------------------------+ | - name: String | | - book: int | +-----------------------------------+ | + User(String name, int book) | | + getName(): String | | + getBook(): int | | # setBook(int book): void | | + moreBook(int number): void | | + testUser(): void | +-----------------------------------+ The name instance variable indicates the user name. The book instance variable indicates the number of books borrowed by the user. The setBook method changes the number of books borrowed by the user. The setBook method is protected, not public. This means that only subclasses of the User class can use the setBook method. All the other classes in the system cannot use the setBook method, so they cannot change the number of books borrowed by a user. The purpose of the moreBook method is to increase the number of books borrowed or lent by the user (depending on what kind of user it is) by the number given as argument to the method. The moreBook method of the User class is abstract, since we do not know what kind of role the user is (a borrower borrows books from other users and a lender lend books to other users). Also add to your program a Test class to test your User class. public class Test { public static void main(String[] args) { User.testUser(); } }
05-25

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值