文章目录
一、文本分类和聚类概述
1:文本分类概述
文本分类的定义 \color{red}\textbf{文本分类的定义} 文本分类的定义
- 文本分类(Text Categorization/Classification):事先给定分类体系和训练样例(标注好类别信息的文本),将文本分到某个或者某几个类别中
- 分类是有监督/指导学习(Supervised Learning)的一种
文本分类在信息检索中的应用 \color{red}\textbf{文本分类在信息检索中的应用} 文本分类在信息检索中的应用
新闻分类 \color{red}\textbf{新闻分类} 新闻分类
情感分类 \color{red}\textbf{情感分类} 情感分类
- 博客、评论和论坛有很多不同的观点发布
- 情感分析:自动对观点的极性进行分类:
正面(Positive)、中性(Neutral)、负面(Negative)
有时强度也是很重要的: Weakly negative、strongly negative - 有用的特征
单字词(Unigrams),双字词( Bigrams)
词性标注
形容词
2:文本聚类概述
文本聚类的定义 \color{red}\textbf{文本聚类的定义} 文本聚类的定义
- 聚类是一个无督导的学习过程,它是指根据样本之间的某种距离在无监督( unsupervised )条件下的聚簇过程。
- 利用聚类方法可以把大量的文档划分成用户可迅速理解的簇(cluster),从而使用户可以更快地把握大量文档中所包含的内容,加快分析速度并辅助决策
- 大规模文档聚类是解决海量文本中数据理解和信息挖掘的有效解决手段之一
文本聚类在信息检索中的应用 \color{red}\textbf{文本聚类在信息检索中的应用} 文本聚类在信息检索中的应用
- 检索结果的聚类显示
检索结果聚类,以便用户浏览 - 提高检索结果
查询扩展:局部聚类,全局聚类
提高查全率:例如查询 “car”可能可以返回包含automobile的文档
加快检索速度:可以只在聚类文档中查找,可能不是很精确,但避免了大量相似计算
词汇聚类 \color{red}\textbf{词汇聚类} 词汇聚类
检索结果聚类 \color{red}\textbf{检索结果聚类} 检索结果聚类
按主题聚合检索结果,输入查询词可以找到各个领域的相关查询结果。但是现在的商用搜索引擎基本不提供这个功能,因为聚类很难预计算,必须在线计算,必须要根据搜索的结果进行聚类,在数据量大的情况下非常耗时。
二、文本分类
1:分类的学习算法
- 一个训练例子(training example)是一个实例 x ∈ X x∈X x∈X以及正确的类别 c ( x ) c(x) c(x)的值对: < x , c ( x ) > <x, c(x)> <x,c(x)>, c c c是一个未知的分类函数
- 给定一些训练例子 D,试图找到一个分类函数h(x),使得:
∀ < x , c ( x ) > ∈ D : h ( x ) = c ( x ) ∀ < x,c(x) >∈ D : h(x) = c(x) ∀<x,c(x)>∈D:h(x)=c(x)
学习方法 \color{red}\textbf{学习方法} 学习方法
- 人工寻找文本分类的函数是非常困难的
- 机器学习(Machine Learning )算法:
相关反馈(Rocchio)
朴素贝叶斯(Naïve Bayesian)
最近邻(Nearest Neighbor,KNN)
神经网络(Neural Network,NN)
支持向量机(Support Vector Machines ,SVM)
决策树(Decision Tree, DT)
自动分类的一般过程 \color{red}\textbf{自动分类的一般过程} 自动分类的一般过程