网络信息检索（九）文本分类与文本聚类

最新推荐文章于 2024-01-25 01:54:25 发布

Ordinary_yfz

最新推荐文章于 2024-01-25 01:54:25 发布

阅读量3.7k

点赞数 3

分类专栏：网络信息检索

本文链接：https://blog.csdn.net/csyifanZhang/article/details/105838591

版权

一、文本分类和聚类概述

$\color{red}\textbf{文本分类的定义}$

文本分类（Text Categorization/Classification）：事先给定分类体系和训练样例（标注好类别信息的文本），将文本分到某个或者某几个类别中
分类是有监督/指导学习（Supervised Learning）的一种

$\color{red}\textbf{文本分类在信息检索中的应用}$
在这里插入图片描述

$\color{red}\textbf{新闻分类}$
在这里插入图片描述

$\color{red}\textbf{情感分类}$

博客、评论和论坛有很多不同的观点发布
情感分析：自动对观点的极性进行分类：
 正面（Positive）、中性（Neutral）、负面（Negative）
 有时强度也是很重要的： Weakly negative、strongly negative
有用的特征
 单字词（Unigrams），双字词（ Bigrams）
 词性标注
 形容词

$\color{red}\textbf{文本聚类的定义}$

$\color{red}\textbf{文本聚类在信息检索中的应用}$

检索结果的聚类显示
检索结果聚类，以便用户浏览
提高检索结果
查询扩展：局部聚类，全局聚类
提高查全率：例如查询 “car”可能可以返回包含automobile的文档
加快检索速度：可以只在聚类文档中查找，可能不是很精确，但避免了大量相似计算

$\color{red}\textbf{词汇聚类}$
在这里插入图片描述

$\color{red}\textbf{检索结果聚类}$
按主题聚合检索结果，输入查询词可以找到各个领域的相关查询结果。但是现在的商用搜索引擎基本不提供这个功能，因为聚类很难预计算，必须在线计算，必须要根据搜索的结果进行聚类，在数据量大的情况下非常耗时。
在这里插入图片描述

一个训练例子（training example）是一个实例 $x \in X$ 以及正确的类别 $c (x)$ 的值对： $< x, c (x) >$ ， $c$ 是一个未知的分类函数
给定一些训练例子 D，试图找到一个分类函数h(x)，使得：
$\forall < x, c (x) > \in D : h (x) = c (x)$

$\color{red}\textbf{学习方法}$

$\color{red}\textbf{自动分类的一般过程}$