文本分析挖掘笔记

最新推荐文章于 2023-03-14 15:17:10 发布

林灵会灭

最新推荐文章于 2023-03-14 15:17:10 发布

阅读量517

点赞数

分类专栏：文本Coursera笔记文章标签：文本 Coursera

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35159009/article/details/78836340

版权

文本Coursera笔记专栏收录该内容

0 篇文章 0 订阅

订阅专栏

Coursera 文本分析挖掘笔记点击打开链接

吐舌头概要

文本数据来源：

网络（Internet）、博客(blogs)、新闻（news）、Email、文学（literature）、Twitter等。

主要技术：

文本检索（text retrieval）：大量数据——相关的少量数据

文本挖掘（text mining）：相关的少量数据——长远深入研究

相关知识：

数据结构、C++、概率统计、

参考书：

《文本数据管理与分析：信息检索和文本挖掘的实用介绍》（Text Data Management and Analysis:

A Practical Introduction to Information Retrieval and Text Mining）点击打开链接

第一周

1 减少知识量——知识结构，易于理解（标题）

2 更多的知识量——知识实用性，帮助决策（详解）

如此，可将所有数据集成。

数据挖掘：获取大量数据，输出实用的信息

目的：反推产生文本数据的过程

学习步骤：

1 自然语言处理

2 词汇关联

3 主题挖掘

4 情感分析

5 文本预测

一、自然语言分析（NLP）

1.词性标注：给单词打上标签

2.句法解析：生成解析树

3.语意学：用符号代表实际含义，说话动作分析（实务分析）

难题：歧义（词性问题、语意问题）

常规统计方法——底层；情景分析——高层

浅显自然语言大量使用。

存储

字符串存储——无法进行语义分析（无法识别单词、符号、关系）

分词——基本单元

词性标注（+序列词pos）：研究哪种类型的名词与哪种类型的动词有关联

分割句子得到句法结构

实体关系重构：知识图谱，但不稳定，易错

推理规则

联系推理

实体关系

1.聚合词（paradigmatic）：周一、周二

方法：找文本中相同的，两边都同的概率高，即可得到聚合词

2.组合关系的：车、开；

方法：对两个词同时出现频率高，但分别出现的概率低

作用：

1.提升NLP的精度

2.用于文本检索与挖掘

问题解释，便于句子结构理解（选择比较靠近的词）

聚合体关系（paradigmatic relation）

两个词具有相同语境，位置相似——聚合关系

得出语境：捕捉特定词的左边词，右边词，周围词

估计相似度：3个角度

计算相似度方程方法：

把每一个词库中的词当做一个高维空间中的一个维度

构建表示语境的词频向量

则将语境相似度问题转化为计算向量相似度的问题

方法1：共有词期望（EOWC）

即xi是文本中词wi正则化后的词频，xi之和必然是1

相似度是每个单词对应词频的乘积（点积）

启示：亦可在两个文本中随意选择的一个相同的词，计算其相似度，也可得到文本间的相似度

表现

1.在匹配常见词方面，比匹配特有词表现得更好

缺点：例如当左边一个词总是一样时，对相似度的贡献就很高，

而只有一个词,并不能说明其就是聚类词。

2.匹配到the、a这一类词时，并不能说明相似度高

改进

针对问题1：

词频次线性变换（sublinear transformation of term frequency TF）

y=log(1+x)

BM25 y=(k+1)x/(x+k)

k为参数，不能取太大

针对问题2：

IDF权重

未完待续

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本分析挖掘笔记

Coursera 文本分析挖掘笔记点击打开链接概要文本数据来源：网络（Internet）、博客(blogs)、新闻（news）、Email、文学（literature）、Twitter等。主要技术：文本检索（text retrieval）：大量数据——相关的少量数据文本挖掘（text mining）：相关的少量数据——长远深入研究相关知识：数据结构、C++、概
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。