Otter.ai创始人Sam Liang:智能记录你的生活对话

Robin.ly 是立足硅谷的视频内容平台,服务全球工程师和研究人员,通过与知名人工智能科学家、创业者、投资人和领导者的深度对话和现场交流活动,传播行业动态和商业技能,打造人才全方位竞争力。

本期Robin.ly创业专访邀请到语音识别和转录初创公司Otter.ai的CEO和创始人Sam Liang(梁松)和大家分享他的创业经历和对自然语言处理的见解。

Sam Liang于2003年取得斯坦福大学的电子工程博士学位,并曾经是谷歌地图定位服务的核心团队成员。他的第一家创业公司移动定位平台Alohar在2013年被阿里巴巴收购。

Sam Liang在硅谷接受Robin.ly专访

以下为精彩内容节选

长按二维码或点击“阅读原文”

访问Robin.ly观看完整英文访谈视频

1

   早年经历

Wenli: 您在斯坦福获得了电子工程的博士学位。入学的那一年,您的校友Marc Randolph创办了Netflix。您有没有想过有一天也会像他一样成为一名企业家?

Sam Liang

我在斯坦福主要是从事软件方面的研究。我的导师是计算机科学领域的知名教授,叫David Cheriton。他为Larry Page和Sergey Brin写了第一张十万美元的支票,帮助他们在1997年创办了谷歌。后来这十万美元变成了几十亿美元,造就了历史上最成功的天使投资之一。

刚去斯坦福的时候我并没有创业的念头,但接下来的几年在创业环境中受到熏陶,也开始有了创业的想法。于是毕业后我加入了一家创业公司,想要了解和学习创业公司是如何运作的,想着有一天能创办自己的公司。

Sam Liang与导师David Cheriton

(图片来源:Sam Liang)

Wenli Zhou: 您曾经在Google担任过平台架构师您觉得在Google的那几年最大成就是什么

Sam Liang:

我在2006年加入Google,负责打造一个城域WiFi系统。那时候还没有3G,使用移动设备连网十分困难。Google决定在市内的路灯上安装路由器来提供WiFi服务,这也是我加入Google后参与的第一个项目。后来Google又推出了定位服务,我编写了这个项目的第一行代码,还设计了整体的架构。

2007年,Steve Jobs推出的第一款iPhone其实并没有任何GPS功能,于是我们最先为iPhone建立了定位服务,并得到了Jobs本人的肯定。当这款服务在旧金山推出时,乔布斯亲自在iPhone上进行了演示,而我在后台全程负责确保演示的顺利进行。这是一段很难忘的经历,对我后续的创业也很有帮助。

Sam Liang在Google Maps时期 

(图片来源:Sam Liang)

2

Otter.ai 的特点和优势

Wenli Zhou: 能介绍一下Otter.ai吗?它跟其他语音识别产品有什么差别?

Sam Liang谈Otter.ai的产品优势

Sam Liang:

我们打造出Otter.ai只花了三年时间,这是一个基于人工智能和深度学习的语音识别产品。一开始很多人会好奇,已经有了Siri和Alexa,我们为什么还要打造一个类似的产品。实际上,我们的产品有自己的特点,针对的是一个完全不同的市场,满足的是不同的需求。因为我们知道,用同样的产品跟那些大公司直接竞争几乎没有什么胜算。

多数人每天与Siri或者Alexa对话的次数和时间都很短,而市场上也没有记录和分析这些对话的工具。然而,谈话是人们日常沟通最常见的方式。如果有一种方式可以记录人们生活中的所有对话,是不是很有意思呢?比如如果我与风险投资人,潜在客户以及求职者的对话能够被记录下来,对我来说是很有帮助的。但最重要的是,人工智能可以分析对话的内容,并提供一些建议。这就是我们打造Otter的目的。

Otter是一款可以在iPhone上使用的免费产品,也可以在浏览器上使用。不到一年前,我们推出了Otter的语音识别服务,随后这个产品很快流行起来,几个月前还被Google评选为2018年最佳应用程序。最近的一次TechCrunch Disrupt San Francisco大会也使用Otter作为整个会议的官方语音应用程序,实时转录所有演讲和谈话的文本,并在会场及通过直播进行展示。这是该会议的语音技术十几年来第一次得到更新。

Sam Liang在TechCrunch大会

(图片来源:Sam Liang)

Otter的 AI 技术包括语言识别和声音识别两部分。语言识别能够将歌曲和谈话转换为文本;声音识别,或说话人识别,能够识别是谁在说话。其中还包括了一个叫做人声分离(diarization)的技术。人声分离是一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音。

Wenli Zhou: 目前语音识别的准确度是多少?您觉得这个技术将来还会有哪些应用?

Sam Liang谈语言识别技术未来的发展方向(兼Otter App展示)

Sam Liang:

对于母语人士来说,准确率可能会达到95%,如果背景噪音比较大就会低一些。

能够识别不同人的声音实际上可以帮助我们更好的理解对话。因为即使是相同的句子,不同的人想表达的意思很可能也不一样。通过查看历史记录就有可能理解同一个人的说话习惯,并分析出以后各种表达的真实含义。会议笔记之类的活动记录将来也可以由Otter或其他类似的AI系统完成。我们的所有语音记录都会加密保存,也可以有选择的进行分享。我们还可以通过关键词搜索历史记录,比如说话人的姓名和“自动驾驶汽车”这样的话题。

3

Otter的主要合作伙伴

Wenli Zhou: 我知道Otter目前Zoom的唯一合作伙伴,帮助他们转录所有的视频会议文本你们现在还在跟其他企业合作吗?

Sam Liang:

首先,Zoom是一个很好的合作伙伴,他们专门授权我们的系统提供自动转录服务。Zoom是目前世界上最热门的视频会议系统,实际上也是第一个提供自动语音识别,自动转录的会议系统——没错,不是Google,不是微软,也不是WebEx。所以这给我们的产品和服务质量加分不少。

Sam Liang与Zoom创始人Eric Yuan 

(图片来源:Sam Liang)

除了Zoom,我们还有很多其他合作伙伴。其中一个可以公开介绍的是由Ray Dalio创建的桥水基金。它是世界上最大的孵化基金,管理着1600亿美元。Ray Dalio非常提倡公司运作要保持较高的透明度。桥水基金记录了过去近20年的所有会议内容,在观看了我们的产品演示之后就决定使用Otter进行会议记录和分析。

我们还有一部分合作伙伴是大学。很多学生和老师用Otter记录讲义或教师会议。比如加州大学洛杉矶分校正在考虑开展一种针对国际学生的服务,帮助他们记录课堂笔记。实际上我早年来美国的时候也经常听不懂教授讲课,只能使用录音笔把整堂课录下来,课后还要反复听才能理解授课内容。有了Otter这样的工具,可以为留学生带来很多方便。

4

Otter的发展前景

Wenli Zhou: Otter2016年从几家风险投资公司筹集了A轮融资。会经常跟投资者沟通他们影响公司决策吗?

Sam Liang:

我们经常跟投资者交流,比如Tim Draper和Horizons Ventures。他们是打造了AlphaGo的DeepMind公司的早期投资者,也投资了Waze和Spotify这样的炙手可热的公司。

Sam Liang(右)与Robin.ly主持人Wenli(左)

我们会跟投资者开诚布公的讨论,让他们充分了解我们的想法。他们通常相信我们会做出最好的决定,也会在适当的时候提供建议。他们对我们的技术,我们的团队和整个市场都充满信心。这些投资人往往经验丰富,能够对未来5-10年的市场状况做出合理的预测。这样的判断可以帮助我们提早行动,甚至赶在Google,Amazon和苹果等大公司意识到之前就抢占新市场。新的创业公司往往就是这么诞生的。当然,可能其中99%最终都会失败,但幸存的那1%就会变得非常成功。(完)

相关阅读

天使投资人Jim Scheinman:Zoom的诞生始末

Mosaix首席科学家劳逆:弱监督学习是未来发展趋势

IEEE Fellow何晓冬:让客服不再冰冷

流利说AI刘扬:从教授到”AI虚拟老师“

“文人相轻”:论初创团队倾轧问题

                                                             你“在看”吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值