数据挖掘概念与技术_文本挖掘

1、文本检索的基本度量——[color=red]准确率和召回率[/color][url]http://fuhao-987.iteye.com/blog/930140[/url]
2、文本检索方法——[color=red]向量空间模型[/color][url]http://fuhao-987.iteye.com/blog/930988[/url]
3、文本索引技术
[color=red](1)倒排索引[/color]
一种索引结构,维持两个散列索引表document_table(文档表)和term_table(词表)。
documnet_table:两个字段doc_id和posting_list,posting_list是出现在文档中的词(或指向词的指针)的列表,按某种相关度量排序。
term_table:term_id和posting_list,posting_list是出现该词的文档标识符的列表。
[color=red](2)特征文件[/color]
是一个存储数据库中每个文档的特征记录的文件。
4、文本维度归约
[color=red](1)潜在语义标引(LSI)[/color]
是最为流行的一种文档维度归约算法。
文档矩阵为A(m*n),m为文档矩阵中包含的词的数目,n为文档的数目。A[size=small]T[/size]*A表示文档-文档间的关联矩阵, A*A[size=small]T[/size]表示词语-词语间的关联矩阵.
对A作奇异值分解(SVD),A=U∑V[size=small]T[/size],选取适当的K值,将∑中最大的K个奇异值及其相应行、列保存,其他的奇异值及其相应行、列删除;再取U,V最前面的K个列和K个行向量,分别构建Uk和Vk,由此得到Ak=Uk∑kVk[size=small]T[/size]
k的选取,在矩阵SVD分解中,A=U∑V[size=small]T[/size]。其中对角矩阵∑为
∑=diag(σ_1,σ_2,σ_3,…,σ_r,0…0),满足σ_1≥σ_2≥⋯≥σ_r,可以按照如下规则选取降维因子K,令K满足
(∑_(i=1)^k▒σ_i )/(∑_(i=1)^r▒σ_i )≥θ
包含原始矩阵信息的阈值θ,可选取为:40%,50%,70%,80%。
更新策略:对已经进行了奇异值分解的词频矩阵,若有新的文档或词项加入,主要有两种方法进行SVD更新:重新计算SVD或者直接加入。直接加入是一种简单的更新策略。
5、文本挖掘方法
[color=red](1)基于关键词的关联分析[/color]
[color=red](2)文本分类[/color]
一般过程如下:取一个预分类的文档集作为训练集。然后,分析训练集,以导出分类模式。通常,需要用一个检验过程对该分类模式求精。
k最近邻分类器、贝叶斯分类、基于关联的分类
[color=red](3)文本聚类[/color],混合模型聚类方法,LSI,光谱聚类方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值