机器学习习题(11)

本文介绍了机器学习的习题,涵盖文本分类的特征选择,包括卡方检验、互信息和信息增益等方法。还讨论了序列模式挖掘算法,如AprioriAll、FreeSpan和PrefixSpan的特性与区别。同时,涉及类域界面方程法、分支定界法在解决分类问题中的应用,以及概率密度函数在样本分类中的计算。
摘要由CSDN通过智能技术生成

1. 前言

有志者,事竟成,破釜沉舟,百二秦关终属楚;
苦心人,天不负,卧薪尝胆,三千越甲可吞吴。

2. 习题

2.1 习题1(文本分类)

下列哪个不属于常用的文本分类的特征选择算法?

A.卡方检验值

B.互信息

C.信息增益

D.主成分分析

正确答案:D

解析:

常采用特征选择方法。常见的六种特征选择方法:

1)DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性

2)MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

3)(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI让世界更懂你

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值