文本挖掘的起源
文本数据库(web文档数据)
半结构化数据(semistructure data)
信息检索技术(information retrieval)
Web文本挖掘的过程
Web文本挖掘的一般处理过程
特征的建立
特征集的缩减
学习与知识模式的提取
知识模式
模式质量的评价
文档集
文本特征的建立
定义:文本特征指的是关于文本的元数据。
分类:
描述性特征:文本的名称、日期、大小、类型等。
语义性特征:文本的作者、标题、机构、内容等。
表示(文档建模):
采用向量空间模型(VSM)(矩阵)
特征向量
(其中ti为词条项,wi(d)为ti在d中的权值)
文本特征评价函数的数学表示
信息增益(information gain)
期望交叉熵(expected cross entropy)
互信息(mutual information)
F是对应于单词W的特征;
P(W)为单词W出现的概率;
P(Ci)为第i类值的出现概率;
p(Ci|W)为单词W出现时属于第i类的条件概率。
文本特征评价函数的数学表示(续)
文本证据权(the weight of evidence for text)
词频(word frequency)
P(W)为单词W出现的概率;
P(Ci)为第i类值的出现概率;
p(Ci|W)为单词W出现时属于第i类的条件概率;
TF(W)为单词在文档集中出现的次数。
文档建模
词频矩阵
行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度 表示文档词频的词频矩阵
文档相似度计算
余弦计算法(cosine measure)
余弦相似度定义: "略"
缺点:文档“无限”,导致矩阵增大,计算量增加
特征集的缩减
潜在语义标引(latent semantic indexing)方法利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)
潜在语义标引方法基本步骤:
1.建立词频矩阵,frequency matrix
2.计算frequency matrix的奇异值分解
分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)
3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量
4.保存所有向量集合,用高级多维索引技术为其创建索引
5.用转换后的文档向量进行相似度计算
其他文本检索标引技术
倒排索引(inverted index)
一种索引结构,包含两个哈希表索引表或两个B+树索引表
找出与给定词集相关的所有文档
找出与指定文档相关的所有词
易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大
签名文件(signature file)
doc_1, ... , doc_n
Term_n
tn_1, ... ,tn_n
Doc_n
┇
┇
┇
┇
doc_1, ... , doc_ j
Term_2
t2_1, ... ,t2_n
Doc_2
doc_1, ... , doc_i
Term_1
t1_1, ... ,t1_n
Doc_1
posting_list
term_ID
posting_list
doc_ID
词表(term_table)
文档表(document_table)
词性标注
定义:将句子中兼类词的词性根据上下文唯一地确定下来。
兼类词分类:
同型异性异义兼类词:例如:领导(动词/名词)
同型异性同义兼类词:例如:小时(量词/名词)
异型同性同义兼类词:例如:电脑,计算机
自动词性标注就是用计算机来自动地给文本中的词标注词类。
在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因此,如何排除词类歧义,是文本自动词性标注研究的关键问题。
标注技术路线:基于概率统计和基于规则
自动词类标注
早在60年代,国外学者就开始
文本数据库(web文档数据)
半结构化数据(semistructure data)
信息检索技术(information retrieval)
Web文本挖掘的过程
Web文本挖掘的一般处理过程
特征的建立
特征集的缩减
学习与知识模式的提取
知识模式
模式质量的评价
文档集
文本特征的建立
定义:文本特征指的是关于文本的元数据。
分类:
描述性特征:文本的名称、日期、大小、类型等。
语义性特征:文本的作者、标题、机构、内容等。
表示(文档建模):
采用向量空间模型(VSM)(矩阵)
特征向量
(其中ti为词条项,wi(d)为ti在d中的权值)
文本特征评价函数的数学表示
信息增益(information gain)
期望交叉熵(expected cross entropy)
互信息(mutual information)
F是对应于单词W的特征;
P(W)为单词W出现的概率;
P(Ci)为第i类值的出现概率;
p(Ci|W)为单词W出现时属于第i类的条件概率。
文本特征评价函数的数学表示(续)
文本证据权(the weight of evidence for text)
词频(word frequency)
P(W)为单词W出现的概率;
P(Ci)为第i类值的出现概率;
p(Ci|W)为单词W出现时属于第i类的条件概率;
TF(W)为单词在文档集中出现的次数。
文档建模
词频矩阵
行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度 表示文档词频的词频矩阵
文档相似度计算
余弦计算法(cosine measure)
余弦相似度定义: "略"
缺点:文档“无限”,导致矩阵增大,计算量增加
特征集的缩减
潜在语义标引(latent semantic indexing)方法利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)
潜在语义标引方法基本步骤:
1.建立词频矩阵,frequency matrix
2.计算frequency matrix的奇异值分解
分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)
3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量
4.保存所有向量集合,用高级多维索引技术为其创建索引
5.用转换后的文档向量进行相似度计算
其他文本检索标引技术
倒排索引(inverted index)
一种索引结构,包含两个哈希表索引表或两个B+树索引表
找出与给定词集相关的所有文档
找出与指定文档相关的所有词
易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大
签名文件(signature file)
doc_1, ... , doc_n
Term_n
tn_1, ... ,tn_n
Doc_n
┇
┇
┇
┇
doc_1, ... , doc_ j
Term_2
t2_1, ... ,t2_n
Doc_2
doc_1, ... , doc_i
Term_1
t1_1, ... ,t1_n
Doc_1
posting_list
term_ID
posting_list
doc_ID
词表(term_table)
文档表(document_table)
词性标注
定义:将句子中兼类词的词性根据上下文唯一地确定下来。
兼类词分类:
同型异性异义兼类词:例如:领导(动词/名词)
同型异性同义兼类词:例如:小时(量词/名词)
异型同性同义兼类词:例如:电脑,计算机
自动词性标注就是用计算机来自动地给文本中的词标注词类。
在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因此,如何排除词类歧义,是文本自动词性标注研究的关键问题。
标注技术路线:基于概率统计和基于规则
自动词类标注
早在60年代,国外学者就开始