语音应用开发中的 11 个常见错误

在海外市场,Amazon Alexa 已经拥有超过 15000 项的技能。为语音助手开发技能俨然成了一门有利可图的生意。事实上,已经出现专门为 Alexa、Cortana 等语音助手开发技能的公司或个体开发者。

本文编译自 Avoid These 11 Common Mistakes When Building Voice Applications,介绍了一些语音应用开发中常见的误区。


随着基于 Alexa、Cortana Skills 及 Google Actions 的语音应用数量的快速增加,开发语音应用的或良好或错误的实践,成为了一个热点议题。Voicebot 采访了 11 位语音应用设计和开者领域的专业人士,向他们请教开发者应该避开的误区。本文的目的在于使世界上少一些难用的语音应用。下面是问题及专家的回答。

开发者普遍会犯什么样的错误,导致语音应用的用户体验糟糕?

1. Jess Williams, Opearlo

发布语音应用之前,不做验收测试(beta test)。新版的 Amazon Alexa 提供了简单易用的验收测试工具。验收测试也有助于发现语音交互的缺陷。

2. Dan Whaley, Sabio

首要的问题在于“应用场景”——开发应用前,没有考虑特定任务是否适合用语音的方式完成。许多任务不是过于复杂,就是依赖于视觉上的层次关系。这使得用户难以通过语音接口,去理解系统的反馈,最终导致任务失败。典型的例子是机票预订。关于应用场景的判断,一个比较好的经验法则是,如果你不能(或不愿意)一边洗澡一边做某件事,那么这项技能很可能就不适合做成语音应用。

3. Paul Burden, Our Voice

对于简单的任务(例如,查询时间、天气、热点新闻等),语音助手能够很快地回复。但是,有些复杂的任务刚需要较长的处理时间,用户可能会缺乏足够的耐心。这时,他们会反复呼喊唤醒词,从而打断处理进程。对于 Echo,这会中断当前进行中的任务,转而等待新的指令。

举个具体的例子。“华盛顿大都会地区运输管理局”(Washington Metropolitan Area Transportation Authority,WMATA)开发了一款非常棒的技能,能够查询地铁系统的实时状况。想要查询地铁信息,用户只需要说:“Alexa, ask DC Metro when the next train arrives at the Bethesda stop.”。Echo 通常需要 8、9 秒的时间回应。8、9 秒似乎不是特别久,但是用户经常打断处理进程。我建议这项技能增加一个设计,在 Alexa 被打断时,向用户确认是否中止查询进程(e.g. Do you still want me to get the Metro information for you?”)。

4. Jo Jaquinta, Tza Tza Tzu

话痨。对于音频流,你不能快进、跳过或回退。你必须把音频内容全部听完。因此,当语音应用扔出一段非常长的语音回复时,用户要么怨念地等着音频播完,要么怒删 app,要么听了后半段却忘了前半段。语音应用的回复要简洁明了、传达信息要点。但同时,用户如果愿意,他们应该有办法进一步了解更精确、详细的信息。

5. Scott Werner, SaySpring

在很多常见错误中,我早期(以及许多新手)在项目中犯过的最大的一个是:没能让用户了解,他们能用这款语音应用做些什么。开发者曾经花了大量时间思考、构建应用,对于应用的技能烂熟于心。因此,当应用反馈“你接下想要做什么?”或“还有别的吗?”,开发者知道应该如何回复。但是,对于普遍用户而言,他们并不熟悉这些技能,很容易如堕五里雾中。

6. Adam Marchick, VoiceLabs

我认为一个常见的(但可以理解的)错误在于,语音应用的开发者,试图在一版应用中塞进太多的东西。现在的“对话 AI”非常强大,以至于开发者情不自禁地想在应用中一口气添加 10 项甚至更多的功能 。

我的建议是,在语音应用的第一版中,提供 1 到 3 项关键功能,满足用户的潜在高频需求(每天或每周都会使用的)。然后,在运营过程中,不断分析总结,哪些功能设计是成功的,哪些地方会使用户困惑,哪些新技能是用户希望增加的。在用户对已有功能产生黏性的基础上,逐渐增加更多的功能。相比于网页或移动应用开发,语音应用开发更加具有迭代性

7. Pat Higbie, XAPPmedia

在一轮对话中给用户太多的选项。不同于网页和手机,语音交互场景下,用户需要记住所有的选项才能进行有效的回复。因此,每轮对话提供的选择不能超过 3 项或 4 项。

8. Stephane Nguyen, Assist

语音交互通逻辑通常是基于树状流程开发,类似于互动式语音应答(IVR,Interactive Voice Response)系统(图1)。但是,人类实际的交流过程——特别是语音交流——是非常跳脱的。有多少次,你正在和朋友谈论热映中的电视剧时,朋友突然来了句”哦,对了,晚上我不想吃麻辣烫了,去吃披萨吧“。你当然不需要再重走一遍”订餐“流程来改变心意。


图1. IVR 系统示例【src

注:这点恐怕更多是“非不为也,是不能也“。

9. Ahmed Bouzid, Witlingo

开发者并不完全理解,语音做为一种交流媒介,同视觉和触觉有着本质上的不同。在图形界面下,我们可以使用诸如下拉菜单、复选框列表、单选按钮或图片等方式来指导和帮助用户,从而可以提供任意多的选项供用户选择。用户也没有过多的认识负担,他们可以快速地浏览各个选项,然后做出决定。但在语音交互中,信息(文字)是线性、依次传达给用户的,因此:

  1. 用户每次只能听取一个选项。
  2. 用户必须记住所有的选项——而这会产生认识负担。
  3. 用户希望澄清某个选项时,必须打断当然的播报流程——而在图形界面中,使用 hover 的方式可以对选项提供解释。

更糟糕的是:语音是暂态的,转瞬即逝。因此,暂停进行中的交互流程,然后在适当时候恢复,是难以实现的。例如,你正在听着小曲,逛着淘宝时,门铃响了。在图形界面下,你只需要离开电脑去应门;取完外卖后,你可以接着逛逛逛,买买买。在语音接口下,相同场景的使用体验不要太糟心了,有没有。

10. Nick Schwab, 独立开发者

在我见到过的语音应用中,一个常见的错误是,给用户一个冗长的语音反馈。对大部分应用(游戏和新闻类除外)而言,用户不想被迫听需求之外的信息。相比于无选择性的将信息抛给用户,询问用户是否需要更详细的额外信息是一种更好的做法。

11. John Kelvie, Bespoken

应用一旦上线,便疏于管理。愤怒导致用户的差评,这是任何开发者(不论是玩儿票、独立开发者还是企业开发者)所不愿见到的。虽然开发者不能控制用户的怒火,但是搞清事故的来龙去脉,即时解决问题才是王道。

很高兴回答您关于原生开发语音转文字模块的问题!以下是100个功能的详细介绍: 1. 支持多种语言:模块能够识别和转写多种语言的语音输入。 2. 实时转写:能够实时将语音转换为文字,无需等待。 3. 高准确性:具备高度准确的语音识别能力,能够准确地转写语音内容。 4. 多种音频格式支持:支持多种常见音频格式,如MP3、WAV、FLAC等。 5. 噪音过滤:能够自动过滤掉语音的噪音和杂音,提高转写准确性。 6. 音频分割:能够自动识别和分割长音频,提高转写效率。 7. 混合语音支持:能够处理多个说话人的混合语音,将不同的话语分别转写。 8. 可定制性:支持根据需求定制识别模型,适应特定场景和行业。 9. 批量处理:能够同时处理多个音频文件,提高处理效率。 10. 实时反馈:能够实时返回转写结果,方便实时监控和处理。 11. 语音质量评估:能够评估语音质量,提供语音质量评分和建议。 12. 识别模型更新:支持动态更新识别模型,提升识别准确性。 13. 高并发处理:能够处理大量并发请求,适应高并发场景。 14. 语音分析:能够提供语音特征分析,如音调、语速等。 15. 语音合成:能够将文字转换为语音,实现语音合成功能。 16. 关键词提取:能够提取语音的关键词或短语。 17. 语音指令识别:能够识别特定的语音指令,并执行相应操作。 18. 个性化模型训练:支持根据个人需求进行模型训练,提高个性化识别效果。 19. 异常处理:能够处理语音的异常情况,如口误、背景噪音等。 20. 多场景适应:能够适应不同场景下的语音转写需求,如会议、电话录音等。 21. 实时语音转写API:提供实时语音转写的API接口,方便集成和调用。 22. 批量语音转写API:提供批量语音转写的API接口,方便批量处理。 23. 语音转写编辑器:提供可视化的语音转写编辑器,方便编辑和纠正转写结果。 24. 语音转写报告:生成详细的语音转写报告,包括转写准确率、识别错误等信息。 25. 语音转写文件管理:提供语音转写文件的管理和存储功能。 26. 语音转写数据分析:提供语音转写数据的统计和分析功能,如转写量、识别率等。 27. 情感识别:能够识别语音的情感信息,如喜怒哀乐等。 28. 语音翻译:能够将语音转换为其他语言的文字,实现语音翻译功能。 29. 语音字幕生成:能够生成视频的语音字幕,方便听障人士理解视频内容。 30. 自动标注:能够自动为语音数据进行标注,提高数据处理效率。 31. 语音指纹识别:能够识别特定语音的指纹信息,实现语音识别和鉴定。 32. 语音识别评测:提供语音识别的评测功能,评估识别准确性和性能。 33. 多设备支持:能够在多种设备上运行,如手机、电脑、音箱等。 34. 唤醒词识别:能够识别特定的唤醒词,实现语音唤醒功能。 35. 语音转写编辑历史记录:提供语音转写编辑的历史记录,方便查看和恢复。 36. 语音转写数据备份:能够对语音转写数据进行备份和恢复。 37. 语音转写数据加密:支持对语音转写数据进行加密,保护数据安全。 38. 多种输出格式支持:支持多种常见文本格式,如TXT、JSON、XML等。 39. 语音识别实时性能监控:能够实时监控语音识别的性能指标,如响应时间、吞吐量等。 40. 多通道语音转写:能够处理多通道语音,提高转写准确性。 41. 语音去重:能够自动去除重复的语音内容,减少冗余。 42. 语音转写自动纠错:能够自动纠正转写结果错误,提高准确性。 43. 语音转写质量控制:支持对转写结果进行质量控制,如设定准确率阈值等。 44. 语音转写数据可视化:支持对语音转写数据进行可视化展示,如波形图、频谱图等。 45. 语音转写实时通知:能够实时通知转写结果,如邮件、短信、推送等。 46. 语音转写错误处理:能够处理转写过程错误和异常情况,保证转写的稳定性。 47. 语速控制:支持对转写语速进行控制,如加速、减速等。 48. 语音转写批量导入:支持批量导入语音文件进行转写。 49. 语音转写批量导出:支持批量导出转写结果,方便后续处理和分析。 50. 语音转写数据标注:支持对转写结果进行标注,方便后续分析和应用。 51. 转写结果排序:支持对转写结果进行排序,如按准确率、时间等排序。 52. 语音转写性能优化:支持对转写模块进行性能优化,提高转写速度和效率。 53. 语音转写模型压缩:支持对转写模型进行压缩,减小模型体积和资源占用。 54. 语音转写模型更新策略:支持灵活的模型更新策略,如增量更新、全量更新等。 55. 语音转写扩展性:支持在不同平台和环境下扩展语音转写功能。 56. 语音转写错误码处理:支持对转写过程错误码进行处理和解决。 57. 语音转写模型训练参数调优:支持对模型训练参数进行调优,提高转写准确性。 58. 语音转写模型迁移学习:支持对已有模型进行迁移学习,快速适应新场景。 59. 语音转写用户管理:支持用户管理功能,如权限控制、用户设置等。 60. 语音转写数据集管理:支持数据集管理功能,如数据集导入、数据集标注等。 61. 语音转写批量处理任务管理:支持批量处理任务的管理,如任务调度、任务监控等。 62. 语音转写性能指标统计:提供语音转写性能指标的统计和汇总,如平均准确率、平均处理时间等。 63. 语音转写结果分析:能够对转写结果进行分析,如词频统计、词性标注等。 64. 语音转写结果导出:支持将转写结果导出为其他格式,如Excel、CSV等。 65. 语音转写结果分享:支持将转写结果分享给其他用户或平台。 66. 语音转写结果搜索:支持对转写结果进行搜索和检索。 67. 语音转写结果过滤:支持根据条件对转写结果进行过滤和筛选。 68. 语音转写结果对比:支持对不同转写结果进行对比和分析。 69. 语音转写结果修正:支持对转写结果进行手动修正和编辑。 70. 语音转写结果语义解析:支持对转写结果进行语义解析,提取关键信息。 71. 语音转写结果去敏感处理:支持对转写结果的敏感信息进行处理和屏蔽。 72. 语音转写结果脱敏处理:支持对转写结果的个人隐私信息进行脱敏处理。 73. 语音转写结果语法校验:支持对转写结果进行语法校验,保证语法正确性。 74. 语音转写结果语言模型调优:支持对转写结果进行语言模型调优,提高语义准确性。 75. 语音转写结果转换:支持将转写结果转换为其他格式,如文字、音频、视频等。 76. 语音转写结果分发:支持将转写结果分发到其他系统或平台。 77. 语音转写结果关联分析:支持对转写结果进行关联分析,如关键词关联、情感关联等。 78. 语音转写结果数据清洗:支持对转写结果进行数据清洗和修复。 79. 语音转写结果数据挖掘:支持对转写结果进行数据挖掘和发现。 80. 语音转写结果数据可视化:支持对转写结果进行可视化展示,如词云图、关系图等。 81. 语音转写结果数据导入导出:支持对转写结果进行数据导入和导出。 82. 语音转写结果数据备份:支持对转写结果进行定期备份,保证数据安全性。 83. 语音转写结果数据关联性分析:支持对转写结果进行关联性分析,如时间关联、地理关联等。 84. 语音转写结果数据加工:支持对转写结果进行加工和处理,如数据清洗、数据融合等。 85. 语音转写结果数据分析报告:能够生成详细的转写结果数据分析报告,方便查看和分享。 86. 语音转写结果数据权限控制:支持对转写结果数据进行权限控制,保护数据安全。 87. 语音转写结果数据查询:支持对转写结果数据进行查询和检索。 88. 语音转写结果数据可信度评估:支持对转写结果数据的可信度进行评估和验证。 89. 语音转写结果数据分析模型优化:支持对转写结果数据分析模型进行优化,提高分析效果。 90. 语音转写结果数据分析任务调度:支持对转写结果数据分析任务进行调度和监控。 91. 语音转写结果数据分析结果可视化:支持将转写结果数据分析结果进行可视化展示。 92. 语音转写结果数据分析结果导出:支持将转写结果数据分析结果导出为其他格式。 93. 语音转写结果数据分析结果分享:支持将转写结果数据分析结果分享给他人。 94. 语音转写结果数据分析结果报告:能够生成详细的转写结果数据分析结果报告。 95. 语音转写结果数据分析结果数据挖掘:支持对转写结果数据分析结果进行数据挖掘。 96. 语音转写结果数据分析结果数据可视化:支持对转写结果数据分析结果进行可视化展示。 97. 语音转写结果数据分析结果数据导入导出:支持对转写结果数据分析结果进行导入和导出。 98. 语音转写结果数据分析结果数据备份:支持对转写结果数据分析结果进行备份和恢复。 99. 语音转写结果数据分析结果数据权限控制:支持对转写结果数据分析结果进行权限控制。 100. 语音转写结果数据分析结果数据查询:支持对转写结果数据分析结果进行查询和检索。 这些功能能够满足不同场景下的语音转文字的需求,提供高效准确的语音转写服务。希望对您有帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值