1. 分类和分类器
1.1 分类
在数据挖掘中,常见的方法有四类,回归、分类、聚类和关联分析(根据关联做推荐)。其中分类是对已知类别的数据进行学习和分类,确定分类的标准和依据。从而实现在获取新对象(数据或内容)时,为新对象划分其所属类别。
1.2 分类器
分类器即分类过程中需要用到的分类函数或分类模型。该函数或模型可以把对象的数据映射到指定类别中的某一个,从而可用于数据的分类预测。
分类器的构造大致需要以下四个步骤:
- 选定样本,将所有样本分为训练集和测试集两个部分。在选定样本时尤其要注意不同类别样本的平衡(非平衡样本会对模型的准确造成较大影响)。
- 在训练集上执行分类器算法,生成分类模型。
- 在测试集上执行分类模型,生成预测结果。
- 根据预测结果,计算必要的评估指标,评估分类模型的性能。
2. 逻辑回归——最简单的线性分类器
2.1 二分类中的逻辑回归
逻辑回归主要利用了Logistic函数来构造,该函数形式为: