语音助手——基于语义相似度的泛化语义识别

        在前面的章节中,我们讲到了,对于一个垂域BOT的识别,会有分类模型、意图槽位模型来识别其对应的语义,但是这个一般是针对已经成熟的(即积累了一定数据的)场景才可以做的,对于以下的三种场景,这种做法就不适用了:

  1. 场景冷启动,即一个新的场景,线上并没有对应场景的话术,一般对于冷启动问题我们都会采用模板匹配的方式,但是其泛化能力有限,如何提高其泛化能力呢?
  2. 垂域BOT未识别的话术,即前面章节《潜在技能与未召回话术挖掘》中提到的未召回话术,这部分话术我们会将其补充到已有的场景分类、意图槽位模型中,但算法迭代然后上线是有周期的,除算法训练外,还要经过严格的测试,如何才能做到更加及时的识别呢?
  3. 对于一些节日或者活动时,运营同学会配置一些小技能作为节日彩蛋,但是他们一般配置的话术比较死板,比如:“放个烟花”,在运营同学配置后如何才能识别到“来个烟花”,“放几个烟花”这种话术呢?

针对上面的问题,我们搭建了一套基于语义相似度的泛化语义识别系统。如下图:

        这个系统分为离线部分和在线部分两部分,其中离线部分收集运营配置的话术、产品定义的场景标准话术、BOT中的TOP话术到一起,作为标准话术库,存储为query-intent数据对,同时这些话术也存储到ES数据库中,利用这些数据来训练BERT,使得同intent的query向量更加接近,训练方式这里不做展开,可以使用对比学习或者双塔模型来训练。训练完成后我们就可以得到经过预训练的BERT,用来得到对应query的语义向量。

        在线部分则是一个实时的识别算法,对于用户query,首先经过已经定义的BOT进行语义识别,对于未识别的query,经过ES数据库进行初步检索,对于检索到的query,利用经过预训练的BERT得到语义向量,同时将用户query也得到语义向量,将双方得到的向量进行相似度匹配,基于分数阈值排序得到最终结果。

        

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
神经网络是一门新兴交叉学科, 始于20世纪40年代,是人类智能研究的重要组成部分,已成为脑科学、神经科学、认知科学、心理学、计算机科学、数学和物理学等共同关注的焦点[1]。神经网络就是指模仿人脑神经网络的结构和某些工作机制建立一种计算模型的处理方法。神经网络作为一种新技术之所以引起人们巨大的兴趣, 并越来越多地用于控制领域, 是因为与传统的控制技术相比,它具有以下重要的特征和性质: ①非线性。神经网络在解决非线性控制问题方面很有希望。这来源于神经网络在理论上可以趋近任何非线性映射,人工神经网络比其他方法建模更经济。②平行分布处理。神经网络具有高度平行的结构,这使它本身可平行实现。由于分布和平行实现,因而比常规方法有更大程度的容错能力。神经网络的基本单元结构简单并行连结会有很快的处理速度。③硬件实现。这与分布平行处理的特征密切机关,也就是说它不仅可以平行实现,而且许多制造厂家已经用专用VLSI硬件来制作神经网络。这样,速度进一步提高, 而且网络能实现的规模也明显增大。④学习和自适应性。利用系统过去的数据记录,可对神经网络进行训练。受适当训练的网络有能力泛化,也即当输入出现训练中未提供的数据时,网络也有能力进行辨识。神经网络也可以在线训练。⑤数据融合。神经网络可以同时对定性和定量数据进行操作在这方面,神经网络正好是传统工程系统( 定量数据) 和人工智能领域( 符号数据) 信息处理技术之间的桥梁[2]。
深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。 [1] 深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。 [1] 深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。 [1] 深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法: [2] (1)基于卷积运算的神经网络系统,即卷积神经网络(CNN)。 [2] (2)基于多层神经元的自编码神经网络,包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(Sparse Coding)。 [2] (3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。 [2] 通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”(feature learning)或“表示学习”(representation learning)。 [3] 以往在机器学习用于现实任务时,描述样本的特征通常需由人类专家来设计,这成为“特征工程”(feature engineering)。众所周知,特征的好坏对泛化性能有至关重要的影响,人类专家设计出好特征也并非易事;特征学习(表征学习)则通过机器学习技术自身来产生好特征,这使机器学习向“全自动数据分析”又前进了一步。 [3] 近年来,研究人员也逐渐将这几类方法结合起来,如对原本是以有监督学习为基础的卷积神经网络结合自编码神经网络进行无监督的预训练,进而利用鉴别信息微调网络参数形成的卷积深度置信网络。与传统的学习方法相比,深度学习方法预设了更多的模型参数,因此模型训练难度更大,根据统计学习的一般规律知道,模型参数越多,需要参与训练的数据量也越大。 [2] 20世纪八九十年代由于计算机计算能力有限和相关技术的限制,可用于分析的数据量太小,深度学习在模式分析中并没有表现出优异的识别性能。自从2006年,Hinton等提出快速计算受限玻耳兹曼机(RBM)网络权值及偏差的CD-K算法以后,RBM就成了增加神经网络深度的有力工具,导致后面使用广泛的DBN(由Hin
基于transformer的3D图像语义理解 本项目是一个基于transformer的3D图像语义理解系统,旨在通过先进的深度学习技术,为用户提供高效、准确的3D图像语义分析服务。项目利用transformer模型处理3D图像数据,实现对场景中对象的分类、检测和分割等任务。 项目采用transformer模型作为核心算法,该模型是一种基于自注意力机制的深度学习模型,可以有效地处理序列数据。在3D图像语义理解任务中,transformer模型可以学习到3D图像中对象的特征表示,并在场景中准确地识别和理解对象。 系统首先对输入的3D图像数据进行预处理,提取3D图像特征并进行尺寸调整。然后,通过transformer模型对3D图像特征进行编码,以获取对象的特征表示。接着,系统利用这些特征表示进行语义理解,包括对象分类、检测和分割等任务。 为了提高系统的性能和效果,本项目还采用了多任务学习技术,允许模型同时学习多个相关任务,从而提高3D图像语义理解的准确性和鲁棒性。此外,系统还采用了数据增强和迁移学习技术,以进一步提高模型的泛化能力和准确性。 根据实际测试和评估结果,本系统在3D图像语义理解任务中表现出较高的准确率和鲁棒性。同时,本系统还提供了可视化的界面和交互式的操作方式,方便用户进行3D图像数据分析和结果展示。 总之,本项目是一个基于transformer的3D图像语义理解系统,具有高准确率、鲁棒性强、多任务学习、可视化界面和交互式操作等特点,可以为用户提供高效、准确的3D图像语义分析服务。
目前,基于Transformer的语音识别在研究领域取得了一定的进展。Transformer是一种基于自注意力机制的神经网络模型,它在自然语言处理任务中取得了重大突破,并逐渐被应用到语音识别领域。 一种常见的基于Transformer的语音识别模型是Transformer-Transducer(Transformer-T)模型。该模型将语音特征序列映射为文本序列,通过自注意力机制捕捉特征之间的长距离依赖关系。相比传统的循环神经网络(RNN)模型,Transformer-T模型能够更好地处理长时依赖和并行计算,取得了更好的性能。 另一种常见的基于Transformer的语音识别模型是Conformer模型。Conformer模型在Transformer的基础上引入了卷积神经网络(CNN)结构,用于提取局部特征和上下文信息。这种结构的引入进一步改善了语音识别性能,特别是在处理噪声和变化较大的环境中。 除了模型结构的改进,基于Transformer的语音识别还涉及到训练技术的改进。例如,引入了自监督学习和预训练技术,以利用大规模的未标注语音数据进行预训练,提升模型性能。此外,还有一些针对Transformer模型的优化方法,如低秩注意力机制、跳跃连接等,用于提高模型的计算效率和泛化性能。 总的来说,基于Transformer的语音识别在研究中取得了一些进展,但仍存在一些挑战,如模型大小和计算复杂度较高、对大规模数据的需求等。未来的研究将继续探索更有效的模型结构和训练方法,以进一步提升基于Transformer的语音识别性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值