算法职位分类
不同算法工程师涉及的技术
技术岗位(语音识别、自然语言)
应用岗位(对话系统)
不同算法应用领域
语音识别、自然语义处理、对话系统
在当下这个时间,以对话为主要交互形式的应用,会越来越多的出现在我们的生活场景中。当然,这个对话系统,不只是局限在我们日常所见到的手机上的各类助手,还包括各种音频转化等软件应用。
一个常规的对话交互,计算机往往要经历的过程是『听懂-理解-回答』这3个环节。这3个环节涉及到的技术就是:语音识别(ASR),自然语言处理(NLP)、语音合成(TTS)
语音识别是将用户所说的话(语音)转化为文字形式。
自然语言处理,则是理解这些文字(其实,机器还是挺难理解的,只能通过大量的数据做随机固定反馈)
语音合成,则是在计算机理解了用户的意图之后,将回答以语音的形式输出。
因此,语音识别和语音合成,只是我们作为一手用户的直观感受,实际上自然语言处理,是其在后台进行处理的非常重要的过程。
语音识别,相当于感知层;自然语言处理,是其逻辑层。语音是前提基础,自然语言处理是后续支持。
整个闭环流程,在我们的生活中非常常见。光微信上面,就有很多相关的功能。
语音转换为文字,是一个。
很显然,我只是读了前面关于语音识别的任务这句话,但微信就识别出来的是玉林市教育。
微信的声音锁,也是一个。
导航时的语音搜索地点
百度搜索时的语音搜索
手机输入法中的语音输入
这些都是语音识别的一些常用应用。
截止目前,其实语音识别系统对环境的敏感度还是非常高的,因为非常容易造成语音拒识或误识的现象,未来的语音识别可以需要添加一些新的稳定的信号源或者信号处理方式。
前面的微信声音锁功能,建议各位慎重,因为很有可能你的微信就打不开了。
事实上,目前语音识别主要体现2种应用场景。
固定场景
专业术语的描述是,只能识别预告指定的字/词/指令。
目前这类产品的应用相对非常成熟,识别率也非常高。
像类似小米音箱或者天猫精灵之类的产品,你只要说,小艾,打开空调,播放音乐,他就自动做一些简单的操作。如果你要是来一段,小艾,可以借我10块钱么?人家可就不会理你了。
开放场景
无预告指令,算法通过将语音放入语言集合中进行识别。
比如,同声传译类的机器,或者是即时翻译器,都会算做此类。当然目前的小冰、siri等这些手机中的语音助手,也是属于此类范畴。
还有一种长段语音翻译也是这种类型,比如搜狗和讯飞都有类似的产品,包括微信的那个语音转文字,也是属于这个版块的。因为计算机不知道你会输入什么样的语音指令。
对话系统
对话系统的底层,是自然语言处理。
目前市面上主要,也是有2种。
像语音版的智能电话销售,相信很多朋友都体验过。
一般在保险和电信行业,会有这种。
电话接通后,对面没声音。当你『喂』之后,对面才会开始。
目前来看,比较厉害的siri大约能够做到的是这样的对话。
若是日后猎头行业,也能够有这一套完整工作能力匹配、求职动机匹配的智能电话系统的话,未来很多猎头,真的是要失业了。
以人工智能的聪明才智,大量输入各种优质的电话录音做深度学习,真的很可怕。
不过,目前来看这个非常难。
目前我们接触到的各种Saas软件,更多只是停留在简历文本的这种固定化内容处理,不用担心。