如何在不懂机器学习的情况下,快速评估一个分类模型的效果?
面对一个分类问题,比如电商网站想要根据用户行为预测用户是否会购买商品,通常会有很多种算法可以选择。那么在没有任何机器学习知识的情况下,如何快速评估一个分类模型的效果呢?
这里有一个简单但非常实用的方法:使用一个基准模型来作为比较的基础。这种基准模型就是本文要介绍的DummyClassifier
算法。
假设一个电商网站有以下用户行为数据:
用户ID | 浏览次数 | 放入购物车 | 点击广告 | 是否购买(1为是,0为否) |
---|---|---|---|---|
1 | 5 | 0 | 1 | 0 |
2 | 2 | 1 | 0 | 1 |
3 | 4 | 1 | 0 | 1 |
4 | 1 | 0 | 0 | 0 |
5 | 3 | 1 | 1 | 1 |
6 | 2 | 0 | 1 | 0 |
7 | 5 | 1 | 0 | 1 |
8 | 3 | 0 | 1 | 0 |
9 | 4 | 1 | 1 | 1 |
10 | 1 | 0 | 0 | 0 |
如何预测一个新用户是否会进行购买?可以尝试下面的内容作为解决思路:作为一个最简单的评估手段,可以先找出数据中最常见的“是否购买”结果,然后不管什么样的新用户数据,都预测为这个最常见的结果。
这就是DummyClassifier
算法所做的事情。它是一种基准模型,用于快速评估分类问题。在这个电商例子中因为有6个用户购买了(标记为1),4个用户没有购买