随笔5(NLP)

本文探讨了任务型人机对话系统,分为IO层、知识层和控制层三个层次。IO层处理物理信号,知识层管理领域知识,控制层进行语义解释和对话推理。重点介绍了语音识别和合成的通道技术,以及认知技术在处理通道不确定性中的作用。随着移动互联网的发展,对认知型交互系统的需求增加,提出了基于自然轮回的对话系统作为未来研究方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

领域任务型人机对话系统是一个闭环的双向连续信息交换系统,过去往往把它粗略地分为输入、理解和输出3个模块,其中“输入输出”和“理解”之间进行的是确定信息的交换,“理解”被笼统地认为是采用自然语言处理技术对输入文本进行分析.这种分割方式忽视了信息的不确定性和人脑对各个模块进行整体的、系统的调度协调的认知能力,也没有把信息内容本身的管理与信息的调度和控制区分开来,而这些恰恰是现实的自然人机对话中不可回避的重要问题.因而,我们将任务型对话系统明确分为3个层次。

(1)IO 层

最外部的输入输出层(IO层)是对物理层面信号的处理,也即传统人机交互理论中的“通道”,其目标是对用户和环境产生的信号进行感知和通道层的分析,转换为一定的编码,它对应的技术范畴是通道感知技术.

(2)知识层

最内部的知识层是对领域任务相关知识的管理,目标是对特定的知识进行对话前的离线预处理,如获取、搜索、索引等,这一层对应的技术范畴是知识管理技术.

(3)控制层

控制层对IO层得到的编码进行语义解释,维护对话系统的认知状态空间,管理知识的交互式提取和交换,并进行对话推理和决策,它是IO层与知识层的中间件,这一层对应的技术范畴是认知控制技术.

知识层在领域任务型的对话系统中,通常以知识数据库的方式出现,可以进行精确或模糊的查询.这种知识管理的方式相对成熟和简单,知识数据库查询本身不是讨论的重点。

控制层在确定语义本体和业务逻辑的前提下,与知识层是相对独立的,这样就使得控制层的研究可以独立于知识管理,形成完整的研究体系.控制层与IO层都与交互能力直接相关,它们紧密耦合在一起,就是“认知型人机界面”,是传统人机界面的扩展.值得指出的是,面向业务的口语问答系统也是一种特殊的任务型口语对话系统,它的知识层可能采用与传统的数据库查询不同的表达和管理方式(例如采用关键字匹配).这类口语对话系统的认知技术与数据库查询型的对话系统的认知技术原理大部分是相似的,但在语义接口定义和对话状态表达上差别较大,更偏向于开放型信息交互(除非能转化为数据库查询型的知识管理方式)。

通道技术

通道(modality)的概念往往指用户的行为或通信方式,通道技术是将信号转换为编码的技术.作为“对话”的天然载体,语音信号转换为文本编码一直是人机对话系统的主要通道形式.语音通道的核心是语音识别(输入)和合成(输出)技术.对话系统中的语音识别通常是非特定人、非特定环境的大词汇连续语音识别,这类语音识别系统涉及特征提取、声学模型、语言模型和解码算法等关键技术,其目标是找到一个文本序列,使得它在给定音频上的后验概率最大.这个过程中,声学系统负责将声音转成基础发音单元(音素),而语言系统则运用语言知识纠正声学系统的识别错误.目前的前沿主流技术是采用隐马尔可夫模型(Hidden Markov Model, HMM)结 合 深 度 神 经 网 络 (Deep Neural Network,DNN)构造搜索空间进行解码操作,这些技术及其不断改善导致了可以大规模商用的通用语音识别系统的出现.语音合成从概念上是语音识别的逆过程,目标是将文本转换为语音.传统拼接式语音合成已经完全商用,可以合成具有高自然度和可懂度的语音.近年来,基于“源滤波器”机理的参数化统计合成受到越来越多的关注,这种方法在模型大小、个性化程度方面较拼接方法具有优势,近年来在声学模型训练、基频建模、深度学习等方面产生一系列新技术,促进了它的成熟和广泛使用.

随着移动互联网时代的到来,人机对话系统的输入输出通道形式也变得越来越丰富.传统的键盘、鼠标、触摸板在需要精确输入的场景下仍然使用广泛,其它的输入通道,除语音之外,图像、手势、触感、体感,乃至脑机接口,在更自然的移动应用中也受到了越来越多的重视.这些输入通道是连接物理信号与信息编码的纽带,有些具有文字编码特性,可以表达丰富的抽象语义,例如语音、光学字符识别等;另一些则表达非文字性的语义信息,例如情绪、位置、行为类别等等.人与人对话中对信息的感知和交互往往是多模态的,因而人机对话系统中,将各类通道信息融合的多通道输入输出技术是被广泛接受的技术方向.多通道的优势是可以利用各种传感器和通道的互补性,使得人机交互更加灵活和便捷,提升输入输出的信息带宽,更符合人类交互的自然习惯.抛开具体的通道模态,通道技术解决的问题是信号到编码的转换.虽然某些编码具有一定的语义作用,但一般情况下,编码并不等于最终的用户意图.而且在自然交互方式,尤其是多通道交互情况下,通道层的编码往往具有不确定性,整合协作和交互功效变成了一个瓶颈问题.这些都使得真实用户意图(语义)的解析很难通过提升单独通道的感知能力来彻底解决,而要涉及对话系统后端的融合、理解和控制,即控制层的认知技术.

 

 

认知型交互系统对于通道技术的一个重要观点是:经过通道获取的编码不是对用户意图的最终解释,而都应被视为用来推测用户最终语义或产生系统反馈的某种“特征”.在这种观点下,除信息融合之外,认知型对话系统要求对通道编码的不确定性进行显示建模,以最大可能地传输信息,这是认知型对话系统框架下的通道技术与传统通道技术研究的不同点

随着移动互联网的发展,传统的机械式对话系统已经不能满足人类自然交互的要求,大规模的自然人机交互需求被极大地激发出来.新型的人机对话系统既要实现基于非精确的自然语言的交互,又要能有效地完成用户任务,而不仅仅是随意的聊天娱乐交互.这就要求机器具有“认知主体”的特性和完成有目的交互的能力,因而相关的认知技术的研究也正在成为人机交互研究的一个新领域.认知技术的研究虽然已经展开,尤其在近年有较大的发展,但在算法研究、工程实践、范畴框架等方面还面临许多挑战

人机对话系统是将机器视为一个认知主体的人机双向信息交换系统.最初的人机交互系统都是将机器看作是执行精确命令,产生预定的输入输出的工具.如命令行交互终端、图形用户界面和键盘鼠标交互等等.这类人机交互系统大都是以设计者为中心,要求用户按照设计者预定的方式进行交互并获取结果.而随着技术和应用的发展,以用户为中心的人机交互系统从上个世纪末开始受到越来越大的重视.这类交互系统不是要求用户去适应机器(交互系统设计者),而是要求机器去适应人,也即允许用户采用与人交流的自然方式去与机器交流.这就产生了一个观念上的变革,机器的角色从“执行主体”变成了“认知主体”,可以和人进行“对话”沟通.这类人机交互系统就是本文所关心的“人机对话系统”.对话系统从本体构成和业务逻辑角度,可分为领域任务型和开放型的信息交互.领域任务型系统针对具体应用领域,具有比较清晰的业务语义单元的定义、本体结构以及用户目标范畴,例如航班查询、视频搜索、设备控制等等,这类交互往往是以完成特定的操作任务作为交互目标;而开放型信息交互则不针对特定领域,或说面向非常广泛的领域,交互目标并非业务任务,而是满足用户其它方面的需求,例如开放的百科问答、聊天等.它虽然能一定程度上显示人工智能的力量,但因其并不专注于帮助人解决现实任务问题,其实际使用范围较为狭窄.近年来,随着移动终端的高速发展,面向任务的自然人机对话系统和相关的认知控制理论得到了越来越多的学术和产业界重视,

目前在国内外所有对话系统研究中,都有一个最基本的假设:人机交互的一个轮回必须是一个“句子”.但这种一问一答的方式与实际人类自由对话的方式相去甚远.很多心理学文献都明确指出人类的交互是渐进性的.而且以整句为处理单位会使整个人机对话的时间变长,变得不自然,也会影响用户,使他们对目标的注意力下降.更重要的是,目前的研究全部把轮回检测看成与对话管理无关的独立任务,并没有尝试去研究轮回检测对整体对话系统的性能影响.尤其在较大尺度和真实环境的对话系统中,往往不是由于机器听不懂用户或者不知道如何反馈导致了对话失败,而失败往往来源于机器不知道何时对用户反馈或者用户不知道什么时候该对机器说话.这个现象意味着目前的对话系统研究只关注“反馈什么”,却缺失了另一个重要的交互研究课题:“何时反馈”,因此,基于自然轮回的对话系统是认知技术未来研究的另一个重要课题.对此,一种可行的思路应是在对话管理器之外,引入新的“轮回管理器”,独立地对轮回和时序问题进行研究.

 

 

认知技术至今仍然还没有在大数据真实条件下得到完整的实践验证.因此,在已有研究的基础上,面向真实世界的大规模任务搭建并运行完整的认知型对话系统,并与传统的机械式对话系统对比是认知技术的实验方向,也是应对前述各种挑战的必要的实测平台.另一方面,大规模真实世界的认知型对话系统还对理论研究具有重要的推动作用.从深度理解、对话决策和自适应3个范畴来说,真实世界的大数据和实时运行都会带来更多的理论问题.例如多通道联合作用下的非精确信息理解,大规模状态空间下的POMDP 模型,用户模型的精确学习,跨系统模块的交叉自适应(例如根据对话状态对语音识别模块进行在线自适应),实时在线的自适应和个性化等等.这些理论问题的产生都是由于真实世界的人机交互系统的最终性能是各个模块的有机叠加,而非某个模块的单独性能.因此,设计并实现大规模真实世界认知型对话系统也将有力促进从系统层面进行理论研究.对真实世界系统的需求使得与工业界的结合在认知型对话系统的研究中具有尤其重要的意义.

 


内容概要:本文《2025年全球AI Coding市场洞察研究报告》由亿欧智库发布,深入分析了AI编程工具的市场现状和发展趋势。报告指出,AI编程工具在2024年进入爆发式增长阶段,成为软件开发领域的重要趋势。AI编程工具不仅简化了代码生成、调试到项目构建等环节,还推动编程方式从人工编码向“人机协同”模式转变。报告详细评估了主流AI编程工具的表现,探讨了其商业模式、市场潜力及未来发展方向。特别提到AI Agent技术的发展,使得AI编程工具从辅助型向自主型跃迁,提升了任务执行的智能化和全面性。报告还分析了AI编程工具在不同行业和用户群体中的应用,强调了其在提高开发效率、减少重复工作和错误修复方面的显著效果。最后,报告预测2025年AI编程工具将在精准化和垂直化上进一步深化,推动软件开发行业进入“人机共融”的新阶段。 适合人群:具备一定编程基础,尤其是对AI编程工具有兴趣的研发人员、企业开发团队及非技术人员。 使用场景及目标:①了解AI编程工具的市场现状和发展趋势;②评估主流AI编程工具的性能和应用场景;③探索AI编程工具在不同行业中的具体应用,如互联网、金融、游戏等;④掌握AI编程工具的商业模式和盈利空间,为企业决策提供参考。 其他说明:报告基于亿欧智库的专业研究和市场调研,提供了详尽的数据支持和前瞻性洞察。报告不仅适用于技术从业者,也适合企业管理者和政策制定者,帮助他们在技术和商业决策中更好地理解AI编程工具的价值和潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值