Scikit - learn库中有DummyClassifier。
DummyClassifier是一个简单的分类器,用于作为基准模型。它不基于训练数据中的实际模式进行预测,而是根据一些简单策略来预测,比如:
• 最频繁类别策略:总是预测训练集中最常见的类别。
• 均匀分布策略:随机均匀地预测类别(假设每个类别出现概率相同)。
这在评估其他更复杂的分类模型的性能时很有用。你可以将复杂模型的性能和DummyClassifier对比,如果复杂模型的性能比DummyClassifier还差,那就说明该模型可能有问题或者数据没有被合理利用。在使用时,需要先划分数据集为训练集和测试集,对DummyClassifier进行训练后,再用测试集评估其性能。例如:
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
import numpy as np
# 生成一些简单的分类数据(示例)
X = np.random.randint(0, 10, (100, 2))
y = np.random.randint(0, 2, 100)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
# 使用最频繁类别策略的DummyClassifier
clf = DummyClassifier(strategy="most_frequent")
clf.fit(X_train, y_train)
accuracy = clf.score(X_test, y_test)
print("Dummy Classifier Accuracy:", accuracy)
这段代码创建了简单的训练和测试数据集,使用DummyClassifier按照最频繁类别策略进行训练,然后输出在测试集上的准确率。