Sklearn_dummy_classifier

学好statistics和DS

于 2025-01-13 17:35:40 发布

阅读量184

点赞数 3

分类专栏： python笔记 Machine_Learning 文章标签：机器学习

本文链接：https://blog.csdn.net/2401_83026894/article/details/145120366

版权

python笔记同时被 2 个专栏收录

41 篇文章

订阅专栏

Machine_Learning

40 篇文章

订阅专栏

Scikit - learn库中有DummyClassifier。

DummyClassifier是一个简单的分类器，用于作为基准模型。它不基于训练数据中的实际模式进行预测，而是根据一些简单策略来预测，比如：

• 最频繁类别策略：总是预测训练集中最常见的类别。

• 均匀分布策略：随机均匀地预测类别（假设每个类别出现概率相同）。

这在评估其他更复杂的分类模型的性能时很有用。你可以将复杂模型的性能和DummyClassifier对比，如果复杂模型的性能比DummyClassifier还差，那就说明该模型可能有问题或者数据没有被合理利用。在使用时，需要先划分数据集为训练集和测试集，对DummyClassifier进行训练后，再用测试集评估其性能。例如：

from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
import numpy as np

# 生成一些简单的分类数据（示例）
X = np.random.randint(0, 10, (100, 2))
y = np.random.randint(0, 2, 100)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

# 使用最频繁类别策略的DummyClassifier
clf = DummyClassifier(strategy="most_frequent")
clf.fit(X_train, y_train)
accuracy = clf.score(X_test, y_test)
print("Dummy Classifier Accuracy:", accuracy)