【CIPS 2016】(6-7章)知识图谱、文本分类与聚类(研究进展、现状&趋势)

striving长亮

已于 2022-07-07 12:40:20 修改

阅读量3.5k

点赞数 6

分类专栏： CIPS 2016 文章标签：知识图谱自然语言处理 nlp

于 2021-11-02 18:57:22 首次发布

本文链接：https://blog.csdn.net/qq_22170967/article/details/121106312

版权

CIPS 2016 专栏收录该内容

10 篇文章

订阅专栏

CIPS 2016 笔记整理

《中文信息处理发展报告（2016）》是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理，官方定位是深度科普，旨在向政府、企业、媒体等对中文信息处理感兴趣的人士简要介绍相关领域的基本概念和应用方向，向高校、科研院所和高技术企业中从事相关工作的专业人士介绍相关领域的前沿技术和发展趋势。

本专栏主要是针对《中文信息处理发展报告（2016）》做的笔记知识整理，方便日后查看。

注意：本笔记不涉及任何代码以及原理分析研究探讨，主要是对NLP的研究进展、现状以及发展趋势有一个清晰的了解，方便以后更加深入的研究。

ps：我已将思维导图以及Markdown版本、pdf版本上传到我的GitHub中，有需要的可以自行查看：

https://github.com/changliang5811/CIPS-2016.git

传送门：

CIPS 2016(1-3章)——词法、句法、语义、语篇分析研究进展&发展趋势

CIPS 2016(4-5章)——语言认知模型、语言表示以及深度学习(研究进展、现状&趋势)

前言

知识图谱（Knowledge Graph，KG）旨在描述客观世界的概念、实体、事件及其之间的关系。其中，概念是指人们在认识世界过程中形成对客观事物的概念化表示，如人、动物、组织机构等。实体是客观世界中的具体事物，如篮球运动员姚明、互联网公司腾讯等。事件是客观事件的活动，如地震、买卖行为等。关系描述概念、实体、事件之间客观存在的关联关系，如毕业院校描述了一个人与他学习所在学校之间的关系，运动员和篮球运动员之间的关系是概念和子概念之间的关系等。谷歌于 2012 年 5 月推出谷歌知识图谱，并利用其在搜索引擎中增强搜索结果，标志着大规模知识图谱在互联网语义搜索中的成功应用。

另一方面，现实世界中人们获取的大部分信息以文本的形式存在，例如书籍、报刊、电子邮件和 Web 页面等。随着互联网的高速发展，海量文本数据不断产生，这些数据中蕴含大量有用信息。因此，针对这些文本信息的文本挖掘（Text Mining）技术受到人们的广泛关注。文本挖掘是指从这些非结构或半结构化的文本数据中获取高质量的结构化信息的过程。换言之，文本挖掘的目的是从未经处理的文本数据中获取有用知识或信息。典型的文本挖掘任务包括文本分类、文本聚类、概念/实体抽取、情感分析、文档摘要等。本文将着重介绍文本分类和聚类的关键科学问题，具体研究内容，截至目前（2016年年底）的研究进展，以及未来的发展趋势。

Chapter 6 知识图谱

（研究进展、现状&趋势）

任务定义、目标和研究意义

知识图谱（Knowledge Graph，KG）旨在描述客观世界的概念、实体、事件及其之间的关系

概念是指人们在认识世界过程中形成对客观事物的概念化表示，如人、动物、组织机构等
实体是客观世界中的具体事物，如篮球运动员姚明、互联网公司腾讯等
事件是客观事件的活动，如地震、买卖行为等
关系描述概念、实体、事件之间客观存在的关联关系
以结构化的形式描述客观世界中概念、实体间的复杂关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。
给互联网语义搜索带来了活力，同时也在智能问答中显示出强大威力，已经成为了互联网智能服务的基础设施
知识图谱与大数据和深度学习一起，已经成为推动人工智能发展的核心驱动力之一。

知识图谱技术

建立知识图谱中使用的技术，是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等的交叉研究。
探索从互联网语言资源中获取知识的理论和方法
促进知识驱动的语言理解研究
研究从大数据中挖掘隐含的知识理论与方法，将大数据转化为知识，增强对互联网资源的内容理解
将促进当代信息处理技术从信息服务向知识服务转变

知识图谱应用

知识融合
- 当前互联网大数据具有分布异构的特点，通过知识图谱可以对这些信息资源进行语义标注和链接，建立以知识为中心的资源语义集成服务
语义搜索
- 将用户搜索输入的关键词，映射为知识图谱中客观世界的概念和实体，搜索结果直接显示的满足用户需求的结构化信息内容，而不是互联网网页
问答系统
- 基于知识的问答系统将知识图谱看成一个大规模的知识库，通过理解将用户的问题转化为对知识图谱的查询，直接得到用户关心问题的答案
大数据分析与决策
- 知识图谱通过语义链接可以帮助理解大数据，获得对大数据的洞察，提供决策支持。

研究内容、技术方法&研究现状

研究内容

知识表示
- 研究客观世界的知识如何在计算机里表示和处理
- 需要解决的问题
  - 建立什么样的知识表示形式能够准确地映客观世界的知识
  - 建立什么样的知识表示可以具备语义表示能力
  - 知识表示如何支持高效知识推理和计算，从而使知识表示具有得到新知识的推理能力
- 主要知识表示技术
  - 符号主义
    - 人类认知和思维的基本单元是符号，而认知过程就是在符号表示上的运算
  - 联结主义
    - 人的认知就是相互联系的具有一定活性值的神经单元所形成网络的整体活动，知识信息不存在于特定的地点，而是在神经网络的联结或者权重中
- 当前主要知识表示方法
  - 传统人工智能中基于符号逻辑的知识表示
    - 如：产生式系统、谓词逻辑、框架表示、语义网等
    - 逻辑表示法（最早使用，如一阶逻辑、描述逻辑），产生式表示法和框架表示等
    - 缺点：生成规则的能力较弱，对数据质量要求较高，很少使用
  - 万维网内容的知识表示
    - 互联网资源的开放知识表示方法，如 XML（为内容置标）、RDF （通过三元组（主体，谓词，客体）描述）和 OWL（构建在 RDF 之上，是具有更强力的语言）等
    - 在工业界得到大规模应用的基于三元组的知识图谱知识表示方法
  - 表示学习
    - 基于知识图谱的表示学习通过深度学习可以将知识表示成低维连续实值稠密的向量空间，有助于实现高效的知识计算
    - 主要包括张量重构和势能函数的方法
      - 张量重构综合整个知识库的信息，但在大数据环境下张量维度很高，重构的计算量较大
      - 势能函数方法认为关系是头实体向尾实体的一种翻译操作
知识图谱构建
- 解决如何建立计算机的算法从客观世界或者互联网的各种数据资源中获取客观世界知识
- 根据特定知识表示模型，从分布异构的海量互联网资源中采用机器学习和信息抽取等技术，建立大规模知识图谱的过程
- 知识来源
  - 互联网上分布、异构的海量资源
    - 概念层次学习
      - 概念层次是知识图谱的“骨骼”
      - 概念是人们理解客观世界的线索，不同粒度的概念能够给予知识不同层次的精确程度
      - 通过合理的技术抽取知识表示中的概念并确定其上下位关系
      - 方法
        
        基于启发式规则的方法
        
        根据上下位概念的陈述模式从大规模资源中找出可能具有上下位关系的概念对，并对上下位关系进行归纳
        
        基于统计的概念层次学习方法
        
        假设相同概念出现的上下文也相似，利用词语或实体分布的相似性，通过定义计算特征学习概率模型来得到概念结构
    - 事实学习
      - 事实以三元组的形式表示
      - 一个知识图谱中事实的数量决定了知识图谱的丰富程度
      - 构建时采用的机器学习方法
        
        有监督学习
        
        知识获取方法使用已标注文档作为训练集，可以分为基于规则学习、基于分类标注和基于序列标注方法等
        
        基于规则学习的语义标注方法从带语义标注的语料中自动学习标注规则，利用规则对数据资源进行语义标志，适合对具有比较规范出现的资源的知识获取；基于分类的知识获取方法将知识获取方法转化为分类算法，根据确定的标注特征从标注预料中学习标注模型；基于序列模式标注的方法同时考虑多个语义标志之间的关系，可以提高标注的准确率。还包括其他如考虑层次关系的语义标注的方法等。
        
        半监督学习
        
        主要包括自扩展方法 (bootstrapping) 、弱有监督方法 (distant supervision)和开放信息抽取方法(open information extraction)
        
        自扩展方法需要初始的种子实体对，根据这些种子实体对，发现新的语义模板，再对语料进行迭代抽取以发现新的实体对，这种方法的主要问题是语义漂移，代表工作有 Mutual exclusive Bootstrapping, Coupled trainin 和 Co-Bootstrapping。弱监督方法使用知识库中的关系启发式地标注文本，它的问题主要在于训练实例中本身带有大量噪音。开放信息抽取法主要使用自然语言处理方法，无需预先给定要抽取的关系类别，自动将自然语言句子转换为命题。这种方法的主要缺点是在处理复杂句子时效果会受到影响。
        
        无监督学习
        
        代表性系统有 KnowItAll, 这套系统具有领域无关特性，可以使用自扩展的方式从大规模互联网信息中抽取语义信息，同时可以自动地评估所抽取信息的可信程度
    - 事件学习
  - 已有的异构结构化语义资源
    - 语义集成
      - 出现原因：互联网上已有许多大规模知识库，其中比较著名的有 DBPedia、YAGO 等。然而知识库之间的异构性，对知识在整个语义网上的共享造成了阻碍。
      - 通过发现异构知识库中实体间的等价关系，从而实现知识共享的技术
      - 由于知识库多以本体的形式描述，因此语义集成中的主要环节是本体映射
      - 本体匹配方法
        
        基于文本信息的方法
        
        通过计算两个实体字符串之间的相似度(常用的有编辑距离相似度，Jaccard 相似度)，来确定实体之间是否具有匹配关系
        
        基于结构的方法
        
        利用本体的图结构信息来对本体进行匹配
        代表方法：SimRank 和相似度传播
        
        基于背景知识的方法
        
        一般使用 DBPedia 或 WordNet 等已有的大规模领域无关知识库作为背景知识来提高匹配效果
        
        基于机器学习的方法
        
        将本体匹配问题视为一个机器学习中的分类或优化问题，采取机器学习方法获得匹配结果
- 确定因素
  - 从什么样的数据资源中学习知识？
    - 结构化（如数据库数据）、半结构化（如互联网上的表格数据等）和非结构化资源（如文本数据等）对象
  - 学习什么类型的知识？
    - 概念层次结构、事实知识、事件知识等
  - 使用什么样的学习方法获得知识？
    - 有监督学习、半监督学习和无监督学习
- 很多知识计算任务需要联合多个知识资源给出结果
- 异构知识资源的语义链接和集成也是知识图谱的一项核心技术
- 多源异构知识库的链接是一个亟需解决的问题
  - 目前语义集成主要从语义网和自然语言处理两个方面分别进行。
  - 语义网领域的相关研究是数据链接
  - 自然语言处理领域对应于实体链接
知识图谱应用
- 研究如何利用知识图谱更好地解决实际应用问题
- 终极目标：利用知识图谱，建立基于知识的系统并提供智能的知识服务
  - 基于知识的互联网资源的信息融合
  - 语义搜索
    - 利用具有良好语义定义的形式，以有向图的方式提供满足用户需求的结构化语义内容。主要包括 RDF 和 OWL 的语义搜索引擎和基于链接数据的搜索等
    - 直接得到用户感兴趣的客观世界的实体和实体关系信息
    - 典型应用：谷歌的 Knowledge Graph 和国内的百度知心、搜狗的知立方等
  - 基于知识的问答系统
    - 通过对问句的语义分析，将非结构化问句解析成结构化的查询语句，在已有结构化的知识库上查询答案
    - 通过将用户的提问转换成对结构化知识图谱的查询可以直接得到用户的答案，其中问题理解和基于推理的知识匹配是核心技术
    - 进展：近两年很多研究者开始研究基于深度学习的知识库问答方法
  - 基于知识的大数据分析和挖掘
    - 研究语义标注或者实体链接技术，实现不同资源类型、不同媒体类型的互联网资源的融合、管理与服务

总结&展望

知识图谱技术是知识表示和知识库在互联网环境下的大规模应用，显示出知识在智能系统中重要性，是实现智能系统的基础知识资源。

Chapter 7 文本分类与聚类

（研究进展、现状&趋势）

文本挖掘（Text Mining）

从非结构或半结构化的文本数据中获取高质量的结构化信息的过程

目的是从未经处理的文本数据中获取有用知识或信息

任务

核心任务
- 文本分类（Text Classification）
  - 根据给定文档的内容或主题，自动分配预先定义的类别标签
- 文本聚类
  - 根据文档之间的内容或主题相似度，将文档集合划分成若干个子集，每个子集内部的文档相似度较高，而子集之间的相似度较低
概念/实体抽取
情感分析
文档摘要

文本分类、聚类

1. 文本表示

（构建文本特征向量）

将无结构化的文本内容转化成结构化的特征向量形式，作为分类或聚类模型的输入
建立特征空间
- 文本词袋（Bag of Words）模型
  - 每个文档被表示为一个特征向量，其特征向量每一维代表一个词项。所有词项构成的向量长度一般可以达到几万甚至几百万的量级。
  - 不足：忽略了词与词之间的序列信息以及句子结构信息
  - 解决办法
    - 进行特征选择（Feature Selection）与特征提取(Feature Extraction)，选取最具有区分性和表达能力的特征建立特征空间，实现特征空间降维
    - 进行特征转换 (Feature Transformation)，将高维特征向量映射到低维向量空间
    - 话题分析(Topic Analysis)
- 向量空间模型（Vector Space Model）
  - 向量空间的每一维代表一个词项(词语或 N-Gram)，然后通过 TF-IDF 等方式就可以计算得到文本在向量空间中的表示
  - TF-IDF
    - 思想：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力
    - 评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
    - TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)
      - 词频（TF）表示词条（关键字）在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
      - 逆向文件频率 (IDF) ：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。
      - TF-IDF实际上是：TF * IDF
        
        某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。
    - Ref: https://blog.csdn.net/asialee_bird/article/details/81486700
特征降维
- 特征选择
  - 构造面向特征的评分函数，对候选特征进行评估，然后保留评分值最高的特征
  - 特征评分函数
    - 文档频率(Document Frequency, DF)
      - 在整个文本集合中，出现某个特征的文档的频率，DF 值低于某个阈值的低频特征通常为噪音特征或者信息量较小不具有代表性
    - 计算不同特征的类别区分度
      - 前提：给定事先标注了类别标签的文本集合
      - 信息增益(Information Gain)
        
        计算新增某个特征后信息熵的变化情况，用以衡量特征的信息量
      - 互信息(Mutual information)
        
        根据特征与类别的共现情况来计算特征与类别的相关度
        
        如果词项与类别没有关联关系，那么两者同时发生的概率P ( t , c ) 接近两者独立发生概率的乘积P ( t )∗ P ( c ) ，此时互信息值趋近 0；若两者有关联关系，那么两者的联合概率会远大于独立概率的乘积，此时互信息远大于 0。
        
        特征的互信息值越高，说明该特征与某个类别的关联程度更紧密，用来进行分类的话区分效果就更好
      - 卡方统计（x^2 Statistics）
        
        计算特征与类别关联关系的方法，定义了一系列词项 t 与类别 c 之间共现或不同现的统计量（A、B、C、D）
        
        公式
      - 与 DF 相比，基于标注数据集合选取的特征更具区分性，对文本分类效果提升显著，其中以卡方统计的表现最佳
- 特征转换（特征映射）
  - 主成分分析(Principal Component Analysis, PCA)
    - 计算特征变量之间的协方差矩阵，然后选择协方差矩阵特征值最大的若干个特征向量作为主成分
    - 利用这些特征向量，通过线性映射就可以将高维特征映射到低维空间中
  - 线性判别分析(Linear Discriminant Analysis, LDA)
    - 将高维特征向量映射到具有最佳区分度的低维空间，来达到压缩特征维度的效果
    - 保证转换后的表示具有最大的类间间距和最小的类内间距，意味着新的低维特征空间具有最佳的判别性
- 话题分析
  - 假设文档与词语之间存在潜在的语义关系，将文档看成不同话题上的分布，将每个话题看成不同词语上的分布，即话题通过分析文档话题作为文档特征表示
  - 目标：利用大规模文档集合，自动学习话题表示，构建“文档-话题”以及“话题-词之间的关系
  - 代表技术
    - 潜在语义分析(Latent Semantic Analysis, LSA)
      - 通过矩阵奇异值分解(Singular Value Decomposition, SVD)对文档-词语的同现矩阵进行分解，得到“文档-话题”矩阵以及“话题-词语”矩阵。
      - 缺点：LSA 并没有对两个目标矩阵中的取值范围设定限制，不具备概率分布的良好属性。
    - 基于概率的潜在语义分析 (Probabilistic Latent Semantic Analysis, PLSA)
      - 引入概率统计的思想，PLSA 学习得到的“文档-话阵以及“话题-词语”矩阵具有较好的概率分布属性
      - 改进：更直观地计算文档-话题以及话题-词语之间的语义关系，同时也避免了 LSA 中 SVD 的复杂计算过程
      - 缺点；PLSA 无法较好对新文档估计话题分布
    - 隐狄利克雷分布(Latent Dirichlet Allocation, LDA)
      - 层次化的贝叶斯模型，通过为文档的话题分布、话题的词语分布分别设置基于 Dirichlet 的先验概率分布，从而使模型具有较好的泛化推理能力，可以为新文档自动估计话题分布
      - 改进：与 PLSA 利用 EM 算法进行参数估计不同，LDA 可以采用更高效的 Gibbs 抽样法和变分推断法来进行参数估计
      - 于 LDA 提出很多新的主题分析模型
        
        考虑文档之间关系的 RTM(Relational Topic Model)
        考虑主题之间相关性的的 CTM(Correlated Topic Model)
        考虑话题随时间演变的 DTM(Dynamic Topic Model)
        考虑文档作者信息的 Author-Topic Model
  - 进行话题分析的结果，既可以作为文档特征进行文本分类或聚类，也可以用来分析大规模文档集合中的话题分布与演化情况
    - 重要应用：话题检测与跟踪(Topic Detection and Tracking, TDT)，面向新闻媒体，进行新话题发现以及已知话题跟踪
  - 以上主题模型均可用来进行有效的话题检测与抽取，而 DTM 等动态主题模型也可以得到同一主题在不同时期的变化情况。

2.1. 文本分类

基于规则的分类模型
- 旨在建立一个规则集合来对数据类别进行判断
- 规则可以从训练样本里自动产生，也可以人工定义
- 模型
  - 决策树(Decision Tree)、随机森林(Random Forest)、 RIPPER 算法等
基于机器学习的分类模型
- 贝叶斯分类器(Naïve Bayes)、线性分类器（逻辑回归）、支持向量机(Support Vector Machine, SVM)、最大熵分类器
- 以 Boosting、Bagging 为代表的集成学习分类模型组合方法能够有效地综合多个弱分类模型的分类能力
  - 在给定训练数据集合上同时训练这些弱分类模型，然后通过投票等机制综合多个分类器的预测结果，能够为测试样例预测更准确的类别标签
基于神经网络的方法
- 多层感知机（Multilayer Perceptron, MLP）
  - 包括多层感知机在内的文本分类模型均使用了词袋模型假设，忽略了文本中词序和结构化信息。
  - 对于多层感知机模型来说，高质量的初始特征表示是实现有效分类模型的必要条件。
- DNN
  - 基于 CNN 和 RNN 的文本分类模型输入均为原始的词序列，输出为该文本在所有类别上的概率分布
  - 词序列中的每个词项均以词向量的形式作为输入
  - CNN
    - 面向文本的卷积操作是针对固定滑动窗口内的词项进行的
  - RNN
    - 与 CNN 相比，RNN 能够更自然地考虑文本的词序信息
    - 改进
      - LSTM、GRU、BiLSTM等
  - Attention
    - 引入选择注意力机制 (Selective Attention)，可以让模型根据具体任务需求对文本序列中的词语给予不同的关注度。
    - Transformer
    - BERT

2.2 文本聚类

基于距离的聚类算法
- 首先通过相似度函数计算文本间的语义关联度
  - 余弦相似度
  - 皮尔森系数
  - 闵氏距离（曼哈顿距离、欧氏距离、切比雪夫距离）
- 然后根据文本间的语义相似度进行聚类
- 层次法（层次距离）和划分法（K-means）
基于概率模型的聚类方法
- 主题模型（Topic Model）
  - PLSA
  - LDA
- 对文本集合学习概率生成模型
- 假假设每篇文章是所有主题（聚集）上的概率分布，而不是仅属于一个聚集