Coursera 文本分析挖掘笔记点击打开链接
概要
文本数据来源:
网络(Internet)、博客(blogs)、新闻(news)、Email、文学(literature)、Twitter等。
主要技术:
文本检索(text retrieval):大量数据——相关的少量数据
文本挖掘(text mining):相关的少量数据——长远深入研究
相关知识:
数据结构、C++、概率统计、
参考书:
《文本数据管理与分析:信息检索和文本挖掘的实用介绍》(Text Data Management and Analysis:
A Practical Introduction to Information Retrieval and Text Mining)点击打开链接
第一周
1 减少知识量——知识结构,易于理解(标题)
2 更多的知识量——知识实用性,帮助决策(详解)
如此,可将所有数据集成。
数据挖掘:获取大量数据,输出实用的信息
目的:反推产生文本数据的过程
学习步骤:
1 自然语言处理
2 词汇关联
3 主题挖掘
4 情感分析
5 文本预测
一、自然语言分析(NLP)
1.词性标注:给单词打上标签
2.句法解析:生成解析树
3.语意学:用符号代表实际含义,说话动作分析(实务分析)
难题:歧义(词性问题、语意问题)
常规统计方法——底层;情景分析——高层
浅显自然语言大量使用。
存储
字符串存储——无法进行语义分析(无法识别单词、符号、关系)
分词——基本单元
词性标注(+序列词pos):研究哪种类型的名词与哪种类型的动词有关联
分割句子得到句法结构
实体关系重构:知识图谱,但不稳定,易错
推理规则
联系推理
实体关系
1.聚合词(paradigmatic):周一、周二
方法:找文本中相同的,两边都同的概率高,即可得到聚合词
2.组合关系的:车、开;
方法:对两个词同时出现频率高,但分别出现的概率低
作用:
1.提升NLP的精度
2.用于文本检索与挖掘
问题解释,便于句子结构理解(选择比较靠近的词)
聚合体关系(paradigmatic relation)
两个词具有相同语境,位置相似——聚合关系
得出语境:捕捉特定词的 左边词,右边词,周围词
估计相似度:3个角度
计算相似度方程方法:
把每一个词库中的词当做一个高维空间中的一个维度
构建表示语境的词频向量
则将语境相似度问题转化为计算向量相似度的问题
方法1:共有词期望(EOWC)
即xi是文本中词wi正则化后的词频,xi之和必然是1
相似度是每个单词对应词频的乘积(点积)
启示:亦可在两个文本中随意选择的一个相同的词,计算其相似度,也可得到文本间的相似度
表现
1.在匹配常见词方面,比匹配特有词表现得更好
缺点:例如当左边一个词总是一样时,对相似度的贡献就很高,
而只有一个词,并不能说明其就是聚类词。
2.匹配到the、a这一类词时,并不能说明相似度高
改进