13、文本分类中粗糙集属性约简(RSAR)的应用与分析

文本分类中粗糙集属性约简(RSAR)的应用与分析

1. RSAR在文本分类中的作用

粗糙集属性约简(RSAR)应用于文本分类领域,能够帮助定位文本数据集中包含必要信息的部分,从而减少文本分类器需要处理的数据量。同时,它还允许人们检查生成的模型(无论是模糊模型还是传统模型),使原本不透明的分类任务变得更具透明度。

2. 实验数据

本次案例研究使用了人类分类的电子邮件文件夹作为训练示例。这些文件夹具有多种特点,包括不同的自然语言、写作风格和格式、内容,以及相似语言元素在不同上下文中的表现。文件夹的大小从159到380条消息不等,平均为225条消息;内存占用从265到1251千字节不等,平均为634千字节。由于是真实世界的电子邮件文件夹,拼写错误不可避免,这给依赖语言的系统操作带来了困难。所有文件夹都由作者根据一定的逻辑进行了手动分类,例如个人文件夹包含来自同一人的消息,邮件列表文件夹包含来自同一列表的消息。

3. 关键词重要性度量指标

为了衡量文本中关键词的重要性,使用了以下四种指标:
- 布尔存在模型 :为文档中存在的所有关键词分配权重1,不存在的关键词权重默认为0。这些权重可用于布尔推理引擎。
- 频率指标 :将词的权重设置为其在文档中的频率。
- 词频 - 逆文档频率(TF - IDF)指标 :为在当前文档中频繁出现,但在大多数其他文档中不常见的关键词分配更高的权重。
- 模糊相关性指标(FRM) :这是一种基于频率直方图判断词相关性的实验性

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值