数据挖掘概念与技术_文本挖掘

最新推荐文章于 2024-10-12 08:45:21 发布

iteye_15311

最新推荐文章于 2024-10-12 08:45:21 发布

阅读量226

点赞数

分类专栏： NLP 文章标签：数据挖掘数据结构 ITeye 算法 Blog

本文链接：https://blog.csdn.net/iteye_15311/article/details/82041453

版权

NLP 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、文本检索的基本度量——[color=red]准确率和召回率[/color][url]http://fuhao-987.iteye.com/blog/930140[/url]
2、文本检索方法——[color=red]向量空间模型[/color][url]http://fuhao-987.iteye.com/blog/930988[/url]
3、文本索引技术
[color=red](1)倒排索引[/color]
一种索引结构，维持两个散列索引表document_table（文档表）和term_table（词表）。
documnet_table:两个字段doc_id和posting_list,posting_list是出现在文档中的词（或指向词的指针）的列表，按某种相关度量排序。
term_table:term_id和posting_list，posting_list是出现该词的文档标识符的列表。
[color=red](2)特征文件[/color]
是一个存储数据库中每个文档的特征记录的文件。
4、文本维度归约
[color=red](1)潜在语义标引（LSI）[/color]
是最为流行的一种文档维度归约算法。
文档矩阵为A（m*n），m为文档矩阵中包含的词的数目，n为文档的数目。A[size=small]T[/size]*A表示文档-文档间的关联矩阵, A*A[size=small]T[/size]表示词语-词语间的关联矩阵.
对A作奇异值分解（SVD），A=U∑V[size=small]T[/size],选取适当的K值，将∑中最大的K个奇异值及其相应行、列保存，其他的奇异值及其相应行、列删除；再取U,V最前面的K个列和K个行向量，分别构建Uk和Vk，由此得到Ak=Uk∑kVk[size=small]T[/size]
k的选取，在矩阵SVD分解中，A=U∑V[size=small]T[/size]。其中对角矩阵∑为
∑=diag(σ_1，σ_2，σ_3，…,σ_r,0…0),满足σ_1≥σ_2≥⋯≥σ_r,可以按照如下规则选取降维因子K，令K满足
(∑_(i=1)^k▒σ_i )/(∑_(i=1)^r▒σ_i )≥θ
包含原始矩阵信息的阈值θ，可选取为：40%，50%，70%，80%。
更新策略：对已经进行了奇异值分解的词频矩阵，若有新的文档或词项加入，主要有两种方法进行SVD更新：重新计算SVD或者直接加入。直接加入是一种简单的更新策略。
5、文本挖掘方法
[color=red]（1）基于关键词的关联分析[/color]
[color=red]（2）文本分类[/color]
一般过程如下：取一个预分类的文档集作为训练集。然后，分析训练集，以导出分类模式。通常，需要用一个检验过程对该分类模式求精。
k最近邻分类器、贝叶斯分类、基于关联的分类
[color=red]（3）文本聚类[/color]，混合模型聚类方法，LSI，光谱聚类方法