机器学习_周志华_问题汇总_第2周

最新推荐文章于 2025-04-03 14:49:45 发布

Datawhale

最新推荐文章于 2025-04-03 14:49:45 发布

阅读量3.5k

点赞数 2

分类专栏：机器学习-西瓜书

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Datawhale/article/details/82085947

版权

本文汇总了机器学习中的常见问题，包括文本分类错误分析、Bagging与朴素贝叶斯的关系、LinearSVC在集成学习中的表现、异常值处理策略、逻辑回归对偶形式及代价函数的来源等。同时分享了相关资源，如逻辑回归的优化函数推导和决策树算法解析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

Q1 如果我想分析一下文本分类错误的原因，应该从哪些方面入手？

可以去分析一下哪个类别错误率高，然后看看这个类别的是否不平衡，针对这个类别看看能不能进行改进。
还有就是数据量过少，或是数据质量较差(比如人为标注的样本可能类别是不正确的)，都会影响到模型的学习。
因为分类错误这个受特征和模型的参数影响也很大，这可以从这两个方面考虑一下。

Q2 为什么Bagging难以提升朴素贝叶斯分类器的性能？

朴素贝叶斯分类器，主要是依靠数据集的这些样本用极大似然的方法估计总体分布，所以当然是数据集越大越好。
而Bagging每个基学习器只抽取一部分样本，自然训练出来的朴素贝叶斯分类器很差，所以集成后也基本不太可能有大的提升。

Q3 为什么我用LinearSVC做基分类器的时候，不管是Bagging还是Adaboost都和单个分类器一模一样呢，增加分类器个数结果也完全不变

一般模型的上限由特征决定，而你的几个模型的特征可能相同，所以会相似。
而Bagging并不一定比单模型好啊，bagging每个基模型都只用了一部分数据，基分类器比较弱啊，所以有可能在基分类器的基础上提升很小。
但是，如果是完全10个完全不认识的人做10个模型，最后将10个结果结果进行投票决定，那么这个肯定是比单模型有提升的，因为你们10个模型都好而不同。但是bagging无法保证这一点。

Q5 3.15是什么意思啊？y不应该是等于e的（W.tx＋b）次方吗

3.15的意思就是 g(y)是一个线性模型，而y不是，所以称为广义线性模型。而这里的函数g并不一定是ln,所以y不应该等于e的*

Q6 logisticRegression的对偶形式会讲解吗，或者有参考资料数学公式吗吗。我在运行课程代码的时候讲dual设置为False，结果训练了4倍的正常时间，不理解是为啥。

哈哈，这个你就发现了一个问题了吧，设置为True就会变快，那就对了。因为对偶函数比原函数更易于优化，到后边的svm你就会发现了。但是这个函数包里具体用的什么对偶形式，我现在还不是很清楚。

Q7 处理异常值过程中（这里单指某个连续字段），我对训练集大于95%分位数的值用95

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。