Web 文本挖掘（TextMining）技术

最新推荐文章于 2021-07-02 12:03:46 发布

VIP文章 mentat

最新推荐文章于 2021-07-02 12:03:46 发布

阅读量4.9k

点赞数

分类专栏：人工智能文章标签： web 文档语言算法 matrix 交通

本文链接：https://blog.csdn.net/mentat/article/details/27793

版权

文本挖掘的起源

　　文本数据库（web文档数据）

　　半结构化数据（semistructure data）

　　信息检索技术（information retrieval）

　　Web文本挖掘的过程

　　Web文本挖掘的一般处理过程
　　
　　特征的建立

　　特征集的缩减

　　学习与知识模式的提取

　　知识模式

　　模式质量的评价

　　文档集

　　文本特征的建立

　　定义：文本特征指的是关于文本的元数据。

　　分类：

　　　　描述性特征：文本的名称、日期、大小、类型等。

　　　　语义性特征：文本的作者、标题、机构、内容等。

　　表示（文档建模）：

　　采用向量空间模型（VSM）（矩阵）

　　特征向量

　　（其中ti为词条项，wi(d)为ti在d中的权值）

　　文本特征评价函数的数学表示

　　信息增益（information gain）

　　期望交叉熵（expected cross entropy）
　　
　　互信息（mutual information）

　　F是对应于单词W的特征；

　　P(W)为单词W出现的概率；

　　P(Ci)为第i类值的出现概率；

　　p(Ci|W)为单词W出现时属于第i类的条件概率。
　　
　　文本特征评价函数的数学表示(续)

　　文本证据权（the weight of evidence for text）

　　词频（word frequency）

　　P(W)为单词W出现的概率；

　　P(Ci)为第i类值的出现概率；

　　p(Ci|W)为单词W出现时属于第i类的条件概率；

　　TF(W)为单词在文档集中出现的次数。

　　文档建模

　　词频矩阵

　　行对应关键词t，列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度表示文档词频的词频矩阵

　　 文档相似度计算

余弦计算法（cosine measure）

余弦相似度定义： "略"
缺点：文档“无限”，导致矩阵增大，计算量增加

特征集的缩减

潜在语义标引（latent semantic indexing）方法利用矩阵理论中的“奇异值分解（singular value decomposition,SVD）”技术，将词频矩阵转化为奇异矩阵（K×K）

潜在语义标引方法基本步骤：

1.建立词频矩阵，frequency matrix

2.计算frequency matrix的奇异值分解

分解frequency matrix成3个矩阵U，S，V。U和V是正交矩阵（UTU=I），S是奇异值的对角矩阵（K×K）

3.对于每一个文档 d，用排除了SVD中消除后的词的新的向量替换原有的向量

4.保存所有向量集合，用高级多维索引技术为其创建索引

5.用转换后的文档向量进行相似度计算

其他文本检索标引技术

倒排索引（inverted index）

一种索引结构，包含两个哈希表索引表或两个B+树索引表

找出与给定词集相关的所有文档

找出与指定文档相关的所有词

易实现，但不能处理同义词和多义词问题，posting_list非常长，存储开销大

签名文件（signature file）

doc_1, ... , doc_n

Term_n

tn_1, ... ,tn_n

Doc_n

┇

┇

┇

┇

doc_1, ... , doc_ j

Term_2

t2_1, ... ,t2_n

Doc_2

doc_1, ... , doc_i

Term_1

t1_1, ... ,t1_n

Doc_1

posting_list

term_ID

posting_list

doc_ID

词表(term_table)

文档表（document_table）

词性标注

定义：将句子中兼类词的词性根据上下文唯一地确定下来。

兼类词分类：

同型异性异义兼类词：例如：领导（动词/名词）

同型异性同义兼类词：例如：小时（量词/名词）

异型同性同义兼类词：例如：电脑，计算机

自动词性标注就是用计算机来自动地给文本中的词标注词类。

在英语、汉语等自然语言中，都存在着大量的词的兼类现象，这给文本的自动词性标注带来了很大的困难。因此，如何排除词类歧义，是文本自动词性标注研究的关键问题。

标注技术路线：基于概率统计和基于规则

自动词类标注

早在60年代，国外学者就开始

最低0.47元/天解锁文章

mentat

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Web 文本挖掘（TextMining）技术

文本挖掘的起源　　文本数据库（web文档数据）　　半结构化数据（semistructure data）　　信息检索技术（information retrieval）　　Web文本挖掘的过程　　Web文本挖掘的一般处理过程　　　　特征的建立　　特征集的缩减　　学习与知识模式的提取　　知识模式　　模式质量的评价　　文档集　　文本特征的建立　　定义：文本特征指的是关于文本的元数据。　　分
复制链接

扫一扫