文本分析挖掘笔记

本文介绍了文本分析与挖掘的基础概念和技术流程,包括从文本数据源获取数据,利用自然语言处理技术进行预处理,再到词汇关联、主题挖掘及情感分析等高级应用。文中还探讨了实体关系、词性标注等关键技术及其在文本检索与挖掘中的应用。
摘要由CSDN通过智能技术生成

Coursera  文本分析挖掘笔记点击打开链接


吐舌头概要微笑


文本数据来源:

网络(Internet)、博客(blogs)、新闻(news)、Email、文学(literature)、Twitter等。


主要技术:

文本检索(text retrieval):大量数据——相关的少量数据

文本挖掘(text mining):相关的少量数据——长远深入研究


相关知识

数据结构、C++、概率统计、


参考书:

《文本数据管理与分析:信息检索和文本挖掘的实用介绍》(Text Data Management and Analysis:

A Practical Introduction to Information Retrieval and Text Mining)点击打开链接


大笑第一周偷笑


1 减少知识量——知识结构,易于理解(标题)

2 更多的知识量——知识实用性,帮助决策(详解)


如此,可将所有数据集成。

数据挖掘:获取大量数据,输出实用的信息

               目的:反推产生文本数据的过程



学习步骤:

1 自然语言处理

2 词汇关联

3 主题挖掘

4 情感分析

5 文本预测



一、自然语言分析(NLP)

1.词性标注:给单词打上标签

2.句法解析:生成解析树

3.语意学:用符号代表实际含义,说话动作分析(实务分析)

难题:歧义(词性问题、语意问题)

常规统计方法——底层;情景分析——高层

浅显自然语言大量使用。


存储

字符串存储——无法进行语义分析(无法识别单词、符号、关系)

分词——基本单元

词性标注(+序列词pos):研究哪种类型的名词与哪种类型的动词有关联

分割句子得到句法结构

实体关系重构:知识图谱,但不稳定,易错

推理规则

联系推理



实体关系

1.聚合词(paradigmatic):周一、周二

   方法:找文本中相同的,两边都同的概率高,即可得到聚合词

2.组合关系的:车、开;

   方法:对两个词同时出现频率高,但分别出现的概率低

作用:

1.提升NLP的精度

2.用于文本检索与挖掘

    问题解释,便于句子结构理解(选择比较靠近的词)


聚合体关系(paradigmatic relation)

两个词具有相同语境,位置相似——聚合关系

得出语境:捕捉特定词的   左边词,右边词,周围词


估计相似度:3个角度


计算相似度方程方法:


把每一个词库中的词当做一个高维空间中的一个维度

构建表示语境的词频向量

则将语境相似度问题转化为计算向量相似度的问题

方法1:共有词期望(EOWC)


即xi是文本中词wi正则化后的词频,xi之和必然是1

相似度是每个单词对应词频的乘积(点积)

启示:亦可在两个文本中随意选择的一个相同的词,计算其相似度,也可得到文本间的相似度


表现

1.在匹配常见词方面,比匹配特有词表现得更好

   缺点:例如当左边一个词总是一样时,对相似度的贡献就很高,

          而只有一个词,并不能说明其就是聚类词。

2.匹配到the、a这一类词时,并不能说明相似度高


改进

针对问题1:
词频次线性变换(sublinear transformation of term frequency TF)
y=log(1+x)
BM25  y=(k+1)x/(x+k)   
    k为参数,不能取太大



针对问题2:
IDF权重




未完待续





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值