nc65语义模型设计_文本匹配(语义相似度/行为相关性)技术综述

本文深入探讨了文本匹配技术在搜索引擎、智能问答和信息流推荐等领域的应用,重点介绍了文本语义相似度计算。通过点wise、pairwise、listwise等监督形式,展示了学习方式的差异。并分析了无监督技术如TFIDF、LSA以及基于神经网络的sentence encoding和sentence interaction模型。此外,还讨论了多轮对话场景中的文本匹配模型,如DAM模型,强调了文本匹配任务在NLP中的重要性。
摘要由CSDN通过智能技术生成

NLP 中,文本匹配技术,不像 MT、MRC、QA 等属于 end-to-end 型任务,通常以文本相似度计算、文本相关性计算的形式,在某应用系统中起核心支撑作用,比如搜索引擎、智能问答、知识检索、信息流推荐等。本篇将纵览文本匹配的技术发展,并重点介绍文本语义相似度计算技术,以及多轮对话场景中的文本语义相似度计算技术。


1、文本匹配任务

在真实场景中,如搜索引擎、智能问答、知识检索、信息流推荐等系统中的召回、排序环节,通常面临的是如下任务:

从大量存储的 doc 中,选取与用户输入 query 最匹配的那个 doc。

  • 在搜索引擎中,“doc”对应索引网页的相关信息,如 title、content 等,“query”对应用户的检索请求,“最匹配”对应(点击行为)相关度最高。

  • 在智能问答中,“doc”对应 FAQ 中的 question,“query”对应用户的问题,“最匹配”对应语义相似度最高。

  • 在信息流推荐中,“doc”对应待推荐的 feed 流,“query”对应用户的画像,“最匹配”对应用户最感兴趣等众多度量标准。

解决这些任务,无监督和有监督学习都提供了一些具体方法,我们这里先谈论有监督学习。通常,这些任务的训练样本具有同样的结构:

共 N 组数据,每组数据结构相同:1 个 query,对应的 M 个 doc,对应的 M 个标签。

  • 在搜索引擎中,query 会被表征为包含文本语义和用户信息的 embedding,doc 会被表征为包含索引网页各项信息的 embedding

  • 在智能问答中,query 会被表征为以文本语义为主的 embedding,doc 同样表征为以文本语义为主的 embedding

  • 在信息流推荐中,query 会被表征为包含文本特征各项信息的 embedding,doc 会被表征为包含用户历史、爱好等信息的 embedding

可见,query 和 doc 的表征形式较固定,至于具体 embedding 包含的信息根据具体任务、场景、目标变化极大,按需设计。

但至于训练样本中的标签,形式则区别甚大。可以分成下述三种形式:

  • pointwise,M 通常为 1,标签形式为 0 或 1,标签 0 表示 query 与该 doc 不匹配,标签 1 表示匹配。M 也可大于 1 ,此时,一组数据中只有一个 1 其余全为 0,表示这 M 个 doc 中只有这一个与 query 匹配,其余全都不匹配。

  • pairwise,M 通常为 2,标签形式为 0 或 1 ,标签 0 表示 query 与第一个 doc 比与第二个 doc 更匹配,标签 1 表示 query 与第二个 doc 比与第一个 doc 更匹配,当然也可以反之。

  • listwise,M 通常大于等于 2,标签形式为 1 到

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
NC6系列UAP语义模型技术红皮书 第一章 前言 4 1.1 概念 5 1.2 定位 5 第二章 结构 6 2.1 应用模型 7 2.2 语义模型 7 2.2.1 定义形态 7 2.2.2 执行流程 9 2.2.3 数据形态 10 2.3 语义提供者 10 2.3.1 接口 11 2.3.2 扩展 14 2.4 函数 17 2.4.1 函数解析 17 2.4.2 函数扩展 17 2.5 参数 20 2.5.1 参数定义 20 2.5.2 参数引用 20 2.5.3 参数设置 20 2.5.4 参照依赖 21 2.5.5 自定义参照 21 2.6 宏变量 22 2.7 描述器 23 2.8 数据加工 24 2.8.1 概念 24 2.8.2 定位 24 2.8.3 执行原理 25 2.8.4 使用 25 2.8.5 常见问题 27 2.9 物化策略 27 2.10 复合语义模型 27 2.10.1 设计向导方式 28 2.10.2 语义脚本方式 29 2.11 语义上下文 31 2.12 脚本规则 31 2.12.1 实现规则类 32 2.12.2 配置文件注册 32 2.12.3 操作使用 33 第三章 语义模型管理 35 3.1 对象管理 36 3.1.1 目录管理 36 3.1.2 语义模型管理 37 3.1.3 监控 37 3.1.4 权限 38 3.1.5 全局变量配置 38 3.2 环境配置 39 3.3 导入导出 41 3.3.1 导出逻辑 41 3.3.2 导入逻辑 43 第四章 功能扩展 47 4.1 扩展语义提供者 48 4.2 扩展业务函数 48 4.3 使用数据加工 48 4.4 自定义执行策略 48 4.5 业务规则扩展 49 4.6 元定义驱动扩展 49 4.6.1 接口 50 4.6.2 实现 50 4.6.3 配置文件 50 4.6.4 使用 51 第五章 范例 52 5.1 脚本中引用参数范例 53 第六章 附录 57 6.1 入门 58 6.2 语义模型API 63 6.3 语义函数 65 6.4 其他函数 65 6.5 脚本引擎 66 6.6 针对查询引擎的改进 67 6.7 性能监控 67 6.8 多语言支持 68
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值