惊爆！知识迁移巨大突破！道翰天琼认知智能机器人平台API接口大脑为您揭秘-64

本文链接：https://blog.csdn.net/m0_47891641/article/details/108371679

随着深度学习的快速发展，神经网络模型在CV、NLP等很多领域已经取得了显著超越传统模型的效果。然而，在信息检索领域，神经网络模型的有效性却仍然受到质疑。例如这两年来，如BERT一样的预训练语言模型在很多自然语言处理的任务上取得了不错的效果，也成为了众多NLP任务的基线模型。然而，在信息检索领域，预训练语言模型在信息检索数据上的表现却并不突出。那么，神经网络模型在信息检索领域的作用是否被夸大，又该如何有效地将神经网络模型应用于开放域信息检索场景？基于上述问题，清华大学刘知远联合微软团队不仅提出了基于强化学习的弱监督数据筛选模型（ReInfoSelect）等相应解决方案，而且为了更好地解决开放域信息检索问题，刘知远老师所在的清华大学自然语言处理与社会人文计算实验室于近日开源了开放域信息检索工具包——OpenMatch（基于Python和PyTorch开发），以及神经网络信息检索必读论文集——NeuIRPapers。接下来，AI科技评论将和大家一起共探解决之道！
1

信息检索

信息检索顾名思义，就是根据用户给定的问题，通过模型的搜索返回相关的文档（如下图所示）。整个检索过程大致分为两步：文档检索、文档重排序。信息检索框架在文档检索中，由于检索规模巨大，且需要保证检索的召回率，因此，我们往往采用两类方法来实现。第一种为Sparse Methods，例如BM25,SDM等基于精确词语匹配的模型；第二种是Dense Methods，例如ANN(Approximate Nearest Neighbor)，其基于神经网络得到问题和文档的表示，通过计算二者表示的相似程度来对候选文档进行排序。对于文档重排序而言，由于只需要对文档检索出来的前K个文档重排序，因此，我们更侧重于检索的精度和效果。此类模型主要分为两类：1、基于神经网络的信息检索模型，此种模型主要侧重于通过端到端训练，学习词向量之间的相关性特征，例如K-NRM，Conv-KNRM,TK等。2、诸如BERT之类的预训练模型，此种模型通过预训练语言模型来增强模型的效果。最后，我们可以通过Coordinate Ascent或RankSVM来整合两个阶段的全部模型特征，从而提升整体检索的效果。在本文中，我们重点介绍第二步，以及如何更好的将领域知识迁移到文档重排序模型中。
2

预训练语言模型与信息检索

这两年来，如BERT一样的预训练语言模型在很多自然语言处理的任务上取得了不错的效果，也成为了众多NLP任务的基线模型。然而，在信息检索领域，如下图所示以ClueWeb09为例，预训练语言模型在信息检索数据上的表现却并不突出，没有显著优于基于传统信息检索特征的Learning to rank (LeToR)模型。但是通过Bing搜索日志训练的模型却得到了显著的提升，从而说明文本相关性监督信号对于神经网络信息检索是很重要的。不同检索模型在ClueWeb09效果因此，我们不禁会问为什么预训练模型对于我们的信息检索模型没有起到像其他任务一样的效果。我们来看下面一个例子。如下图所示，当用户想去搜索“Tokyo travel”的时候，是希望获取与东京旅行相关的信息，而不希望得到其他地点的旅行信息。信息检索样例然而，考虑基于语言模型训练的预训练模型。如下图所示，以Masked Language Model为例，在这个例子中，“Seattle”和“Tokyo” 同属地名，均符合语言学规律，因此两个词都可以填入我们预先设置好的“[MASK]”位置，从而导致二者在词义表示上非常接近。 Masked Language Model样例但是在信息检索场景中，我们并不希望“Seattle”和“Tokyo”这两个词的表示非常接近（毕竟西雅图和东京还是“有点”距离的）。因此，我们往往需要大量的文本相关性标签来端到端地训练我们的模型，从而学习到词语之间的匹配特征，以此提升神经信息检索模型的效果。然而，文本相关性标签通常难以获得。一些相关性数据，例如搜索引擎用户的搜索日志，往往会涉及到隐私保护和商业机密，这对于研究人员来讲是难以获得的。而如果通过招募人员进行大规模文本相关性标注，也需要大量的时间成本和人力成本，且对于一些特殊检索领域的标注，如医学、小语种等，对标注者的要求非常苛刻。以上的种种原因导致了文本相关性标签较少，从而使得神经网络模型在检索领域难以得到其应有的效果。这时就需要领域知识迁移学习（如下图）派上用场，有两个方面可以实现它：融合外部知识、基于弱监督信号训练；这二者可以增强神经网络模型在信息检索模型中的效果。基于领域知识迁移的神经信息检索模型
3

融合外部知识的神经信息检索模型

在信息检索场景中，用户检索词通常包含知识图谱实体信息，通过引入领域内知识图谱可以帮助我们提升检索模型的效果，帮助模型更好的理解相应实体的语义信息。例如：给定“Obama family tree”这样一个问题，候选文档中往往出现一些相关实体，比如“United States”、“Michelle Obama”等等。通过融合知识图谱的相应的语义信息可以更好的增强实体的表示，从而提升信息检索的效果。信息检索中的实体信息以EDRM模型为例，其利用了知识图谱的三种语义信息来增强实体的表示，分别是实体嵌入式表示、实体描述信息、实体类型信息。实体嵌入式表示通过知识图谱结构信息描述实体间的相似度。实体描述信息往往包含实体最重要的语义，比如针对于实体“Obama”来说实体描述信息会给出“贝拉克·侯赛因·奥巴马，1961年8月4日生，美国民主党籍政治家，第44任美国总统，美国历史上第一位非裔美国人总统。”这样的解释，其往往反映了实体最重要的特性。实体类型信息往往提供了一个机会来建立实体之间的隐含联系，比如：“Barack Obama”属于“Person”和“Leader”等类型。
4

基于弱监督数据训练的神经信息检索模型

针对文本相关性标签少的问题，我们想到互联网中存在大量弱监督文本相关性标签，如：新闻标题-内容、网页锚文本-目标网页文本等。我们可以利用这些数据，结合负例采样，生成训练数据。但这些弱监督数据通常含有大量噪声数据，例如：新闻标题通常为吸引读者眼球，与内容相关性并不高，俗称“标题党”。网页锚文本许多也并无实际意义——“see more”等。如果将所有数据一并训练，必然会对模型产生极大误导。因此，我们提出了基于强化学习的弱监督数据筛选模型：ReInfoSelect。通过引入一个数据选择器来过滤噪声数据，训练神经网络信息检索模型，并通过检索模型在少量相关性标注数据上的表现来指导数据选择器的数据选择，从而提升数据筛选及文档排序效果。 ReInfoSelect框架除了使用互联网中已有的相关文本作为弱监督文本相关性标签之外，我们还利用了训好的生成模型，基于现成的问答数据生成伪语料，构建弱监督文本相关性数据，训练神经网络信息检索模型。
5

开源工具及实验结果

为了更好地解决开放域信息检索问题，清华大学自然语言处理与社会人文计算实验室近日开源了开放域信息检索工具包——OpenMatch，以及神经网络信息检索必读论文集——NeuIRPapers。OpenMatch是清华大学计算机系与微软研究院团队联合完成的成果，基于Python和PyTorch开发，它具有两大亮点：1、为用户提供了开放域下信息检索的完整解决方案，并通过模块化处理，方便用户定制自己的检索系统。2、支持领域知识的迁移学习，显著提升模型效果。

道翰天琼认知智能未来机器人接口API简介介绍

认知智能是计算机科学的一个分支科学，是智能科学发展的高级阶段，它以人类认知体系为基础，以模仿人类核心能力为目标，以信息的理解、存储、应用为研究方向，以感知信息的深度理解和自然语言信息的深度理解为突破口，以跨学科理论体系为指导，从而形成的新一代理论、技术及应用系统的技术科学。认知智能的核心研究范畴包括：1.宇宙、信息、大脑三者关系；2.人类大脑结构、功能、机制；3.哲学体系、文科体系、理科体系；4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。认知智能四步走：1.认知宇宙世界。支撑理论体系有三体（宇宙、信息、大脑）论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系；2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。
认知智能CI机器人是杭州道翰天琼智能科技有限公司旗下产品。认知智能机器人是依托道翰天琼10年研发的认知智能CI体系为核心而打造的认知智能机器人大脑，是全球第一个认知智能机器人大脑。具有突破性，创新性，领航性。是新一代智能认知智能的最好的产品支撑。认知智能机器人技术体系更加先进，更加智能，是新一代智能，认知智能领域世界范围内唯一的认知智能机器人。认知智能机器人是新时代的产物，是新一代智能认知智能的产物。代表了新一代智能认知智能最核心的优势。和人工智能机器人大脑相比，优势非常明显。智能度高，客户粘性大，客户满意度高，易于推广和传播等核心特点。依托认知智能机器人平台提供的机器人大脑服务，可以赋能各个行业，各个领域的智能设备，各类需要人机互动的领域等。认知智能机器人平台网址：www.weilaitec.com，www.citec.top。欢迎注册使用，走进更智能机器人世界。
认知智能和人工智能的优劣势对比主要可以分为四大方面：第一：时代发展不同。人工智能是智能时代发展的第二个阶段，认知智能是智能时代发展的第三个阶段。时代发展上决定了认知智能更显具有时代领先性。第二：基础理论体系不同。人工智能的基础理论体系以数学为基础，以统计概率体系为基础。认知智能基础理论体系以交叉许可理论体系为基础。包含古今中外哲学体系，心理学体系，逻辑学体系，语言学体系，符号学体系，数学体系等学科。其基础理论体系更加具有创新性，突破性和领先性。且交叉学科理论体系的研究也是未来智能发展的大方向。其具体理论体系，还包含三体论（宇宙，信息，大脑三者关系），融智学，和HNC等。第三：技术体系不同。人工智能的核心技术体系主要是算法，机器学习，深度学习，知识图谱等。其主要功用在感知智能。感知智能其核心主要是在模仿人类的感知能力。认知智能的核心技术体系是以交叉学科理论体系而衍生出来的。具体包含三大核心技术体系，认知维度，类脑模型和万维图谱。认知智能的技术体系核心以类脑的认知体系为基础。以全方位模仿类脑能力为目标。人工智能以感知智能为基础的体系，只能作为认知智能中的类脑模型技术体系中的感知层技术体系。类脑模型大致包含，感知层，记忆层，学习层，理解层，认知层，逻辑层，情感层，沟通层，意识层等9大核心技术层。因此人工智能的核心只是作为认知智能类脑模型中的感知层。因此在技术体系上，人工智能和认知智能基本上没有太多的可比性。第四：智能度成本等方面的不同：人工智能产品的综合智能程度，普遍在2-3岁左右的智力水平。认知智能产品其智能程度大致在5-8岁左右。认知智能体系构建的机器人更加智能。且更省时间，更省人力和资金。优势非常多。具体请看下列的逐项对比。

道翰天琼CiGril机器人API

道翰天琼CiGril认知智能机器人API用户需要按步骤获取基本信息：

在平台注册账号
登录平台，进入后台管理页面，创建应用，然后查看应用，查看应用相关信息。
在应用信息页面，找到appid,appkey秘钥等信息，然后写接口代码接入机器人应用。

开始接入

请求地址：http://www.weilaitec.com/cigirlrobot.cgr

请求方式：post

请求参数：

参数	类型	默认值	描述
userid	String	无	平台注册账号
appid	String	无	平台创建的应用id
key	String	无	平台应用生成的秘钥
msg	String	""	用户端消息内容
ip	String	""	客户端ip要求唯一性,无ip等可以用QQ账号，微信账号，手机MAC地址等代替。

接口连接示例：http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552

注意事项：参数名称都要小写，五个参数不能遗漏，参数名称都要写对，且各个参数的值不能为空字符串。否则无法请求成功。userid,appid,key三个参数要到平台注册登录创建应用之后，然后查看应用详情就可以看到。userid就是平台注册账号。

示例代码JAVA：

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

public class apitest {

   /**
   * Get请求，获得返回数据
   * @param urlStr
   * @return
   */
   private static String opUrl(String urlStr)
   {
       URL url = null;
       HttpURLConnection conn = null;
       InputStream is = null;
       ByteArrayOutputStream baos = null;
       try
       {
           url = new URL(urlStr);
           conn = (HttpURLConnection) url.openConnection();
           conn.setReadTimeout(5 * 10000);
           conn.setConnectTimeout(5 * 10000);
           conn.setRequestMethod("POST");
           if (conn.getResponseCode() == 200)
           {
               is = conn.getInputStream();
               baos = new ByteArrayOutputStream();
               int len = -1;
               byte[] buf = new byte[128];

               while ((len = is.read(buf)) != -1)
               {
                   baos.write(buf, 0, len);
               }
               baos.flush();
               String result = baos.toString();
               return result;
           } else
           {
               throw new Exception("服务器连接错误！");
           }

       } catch (Exception e)
       {
           e.printStackTrace();
       } finally
       {
           try
           {
               if (is != null)
                   is.close();
           } catch (IOException e)
           {
               e.printStackTrace();
           }

           try
           {
               if (baos != null)
                   baos.close();
           } catch (IOException e)
           {
               e.printStackTrace();
           }
           conn.disconnect();
       }
       return "";
   }


   public static void main(String args []){
            //msg参数就是传输过去的对话内容。
            System.out.println(opUrl("http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552"));

   }
}