Text Mining and Analytics—— 第一周学习笔记

基础术语

1.关键短语和概念
词性标注
句法分析
语义分析
歧义
文本表示,尤其是后面的词表示
一个词的上下文;上下文相似
聚合关系
组合关系


2.引导性问题

  • 电脑如何理解自然语言的句子?
  • 模糊性是什么?
  • 为什么自然语言处理(NLP)很难?
  • 袋字表示的是什么?
  • 为什么这个词表示比来自文本的句法和语义分析的陈述更强大?
  • 纵聚合关系是什么?
  • 组合关系是什么?
  • 从文本中发现聚合关系的总体思路是什么?
  • 从文本中发现组合关系的总体思路是什么?
  • 我们为什么要在计算相似度的背景下做长期的频率变换?
  • BM25如何词频转换工作?
  • 我们为什么要做逆文档频率(IDF)加权计算?

术语拓展

文本挖掘vs文本分析

1)文本挖掘,文本分析实际上是大致相同的
2)挖掘更强调过程所以,它给了我们一个错误率的医疗问题的看法;而分析更强调结果。
3)文本挖掘,文本分析意味着我们要将文本数据转化为高质量的信息,或可操作的知识。
4)更简洁的形式的信息对消化的文本数据非常有用。
5)文本挖掘是文本检索相关,这是在许多文本挖掘系统的一个重要组成部分
6)文本检索可以为文本挖掘预处理。这意味着它可以帮助我们将大量的文本数据转化为相对较少量的最相关的文本数据。

文本挖掘与分析介绍

1.数据挖掘专业化结构

模式发现–文本检索和搜索引擎–聚类分析–数据挖掘和分析–数据可视化

2.文本数据和非文本数据之间的类比

这些非文本数据在一些问题中往往非常重要,但是文本数据也是非常重要的,主要是因为它们包含了很多对称的内容。而且它们往往包含用户的知识,特别是用户的偏好和意见。
这里写图片描述

3.数据挖掘实质

数据挖掘问题基本上是将这些数据转化为数据,将可操作知识中的所有数据都转换成我们可以利用它来改变现实世界,使之更好。这意味着数据挖掘问题基本上将大量数据作为输入,并给出可操作的知识作为输出.

这里写图片描述

4.文本挖掘的四个方向

1)分析关于语言的知识。例如英文的一些用法,英文的一些模式。
2)挖掘关于观察世界的知识。从数据找出它的本质,或提取关于我们感兴趣的世界的特定方面的高质量信息。
3)可以推断个人的特性。(由于一般情况下,文本数据将包含世界上的一些事实描述以及一些主观的评论。)
4)预测现实世界的变量。例如股票预测
这里写图片描述

5.文本挖掘方法的5个内容

1)自然语言处理
2)词关联挖掘与分析(词汇关联是语言词汇知识的一种形式)
3)挖掘和分析(只是分析文本内容的一种方式)
4)意见挖掘和情感分析
5)基于文本的预测
这里写图片描述


5.1自然语言处理(Natural Language Processing)

6个步骤:
1)分割英文单词(识别单词)¥正确性:>97%
2)词汇分析(进行词性标记)¥正确性:>90%
3)语义分析(分析词汇意思) ¥正确性无法确定
4)句法分析(得到完整的解析树)¥正确性无法确定
5)消除词的歧义 ¥正确性无法确定
6)预设 ¥正确性无法确定

这里写图片描述

普遍的NLP(Natural Language Processing) :一般是用于分析文本数据和挖掘文本数据的浅层技术 ,一般是基于统计分析,属于浅析的范畴。
优点:适用于任何关于任何话题的任何自然文本数据
缺点:无法对文本进行更深入的理解

5.1.1 分割英文单词

英文:将自然语言句子存储为一串字符,保留所有的空格和这些ASCII符号
中文:依靠一些特殊的技巧来识别单词

5.1.2 词汇分析

数据被表示为一个单词序列和一个词性标签序列。例如,最常用的名词或什么样的名词与什么样的动词等有关,通过其中一个词的词性判断其他词的词性。

这里写图片描述

5.1.3 语义分析

例如认识到狗是一种动物。而且我们也可以把男孩当成一个人,把操场看成一个地方。(与Google知识图表有关)

5.1.4 句法分析

这里写图片描述

5.1.* 总结分析图

这张图左边,如果我们向下移动,我们通常会看到更复杂和自然的语言处理技术将被使用。不幸的是,这样的技术需要更多的人类努力,且它们不太准确,存在错误。所以,必要将这种深度分析与基于词语序列的浅薄分析相结合。在右边,你可以看到箭头指向下面,表明随着我们的下降,我们对文本的表达更接近于我们头脑中的知识表示,并且需要解决许多问题。
这里写图片描述

5.1.* 不同的文本表示倾向于实现不同的分析

第一列:文本表示
第二列:一般性(这意味着我们是否可以为所有的文本数据准确 地进行这种表示,或者只是其中的一部分)
第三列:分析技术
第四列:应用实例。

第二行是课程重点 :基于词的表示。优点如下:

  • 通用的,强大的,适用于任何自然语言。
  • 不需要太多的手动操作,有时候也不需要人工操作,可以直接将其应用于任何应用程序。
  • 实际上是意想不到的强大而有效的形式

这里写图片描述

文本表示决定了可以应用哪种挖掘算法。表示文本,字符串,单词,句法结构,实体关系图,知识谓词等的方法有很多种。而当不同的层次结合在一起时,我们可以进行更丰富的分析,更有力的分析。


5.2词关联挖掘与分析(word association mining and analysis)

分类:

1)范式关系:A和B可以相互替代。属于同一个语义类,或句法类。例如,猫和狗。相互代替后,句子仍然是有效句子。最终可以形成词汇类,例如句法类。

2)合成关系 或综合关系:在语义上是有联系的。例如,猫和坐是相关的,它们可以相互结合来传达意义。相互代替后,句子不再有效。最终可以知道基于组件表达式来组合一个更大表达式的规则。

应用:

  • 查询扩展:在搜索和文本检索中,我们可以使用单词关联来修改查询,这可以用来向查询中引入额外的相关单词,从而使查询更加有效。
  • 构造地图顶部:以供用户浏览,将单词作为节点,将关联作为边缘。用户可以从一个字导航到另一个字。
  • 比较和总结意见:例如,我们可能对理解iPhone 6的正面和负面观点感兴趣。我们可以在积极和消极的评论中查看哪些词与一个特征词(如电池)有着最紧密的联系。

    5.2.1 范式关系

如何判断范式关系

通过观察词语语境的相似性来发现范式关系
通过计算两个词上下文相似值比较某词与其他词的范式关系

这里写图片描述

具体步骤:

1.将词左右的词打包

这里写图片描述

2.建立词的语境的向量空间模型
词汇中的每个单词看作是高维空间中的一维定义。如果词汇中总共有N个单词,则有N个维度。

这里写图片描述

内容:

1)计算每个向量,即如何计算xi或yi
2)计算相似度

– –>方法1:

EOWC(Expected Overlap of Words in Context):根据预期的词汇重叠来匹配上下文的相似性。

解决原理:

1)xi被定义为上下文中的规范化描述,这可以解释为如果你随机选择一个单词,你实际上会从D1中选择这个单词的概率,即向量实际上是词上分布的概率,xi的和为1。
2)相似性定义为两个向量的点积,这定义为乘积的和。

这里写图片描述

特点:

1)平等对待每一个词。
2)倾向于匹配一个频繁的术语,而不是匹配更明确的术语,过分强调了一个词的匹配。

– –>方法2:

IDF (inverse document frequency):不太强调原始频率的形式,重点放在稀有术语上。

解决原理:

1)用一个向量表示每个上下文,它表示上下文中一个单词的概率。
2)用点积来度量相似度,这可以解释为两个随机抽取的词在两个上下文中相同的概率。

步骤:

解决问题

  • 如何解决过分强调的问题?

1)TF变换:把文档中单词的原始计数转换为某种权重,反映我们对这个措辞有多重要的信念。

2)BM25转换:通过改变k,改变上限。它对高频项有一个非常严格的限制,因为它们的重量永远不会超过k+1。

这里写图片描述

  • 如何惩罚流行术语?

IDF weight:词汇的罕见度。频率k是指包含特定单词的文档总数的计数,M指收集文件的数量。k越小,M越大,值越大,代表罕见度越高。

这里写图片描述

  • 如何改进我们的相似函数?
    1)将BM 25检索模型用于范式关系挖掘
    这里写图片描述
总结

使用BM25和IDF加权来发现范式关系。

关于范式关系的主要思想是收集一个候选词的上下文以形成一个伪文档,这通常被表示为一个词袋。然后计算两个候选词的相应上下文文档的相似度。

5.2.2合成关系

主要是要捕捉两个词的出现之间的相关性。我们将计算一个上下文中两个单词在一起的次数,甚至可以是一个句子,一个段落,甚至一个文档,比较它们的同时发生和它们的个别事件。

分析过程与分析范式关系相似
这里写图片描述

基于BM25的相似度函数来发现组合关系。使用上下文的转换植入,看看哪些条款得分高
这里写图片描述

小结

聚合关系和合成关系实际上是密切相关的,因为聚合相关的词往往与同一个词有合成关系。


  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值