分类问题是监督学习中的一个问题。
当输出变量Y取有限个离散值时,预测问题就成为分类问题。此时X可以是离散的也可以是连续的。
分类器是从数据中学习到的一个分类模型或者分类决策函数。可能的输出称为类。
分类问题的两个过程:学习和分类。
分类器的性能指标,准确率:分类器正确分类的样本数比上总样本数。
二分类问题的评价指标:
精确率:(正类预测为正类)/(正类预测为正类+负类预测为正类)
召回率:(正类预测为正类)/(正类预测为正类+正类预测为负类)
分类的应用:
1在银行领域构建客户分类模型,对客户按照贷款风险的大小进行分类。
2利用日志数据的分类对非法入侵进行检测。
3图像领域,利用分类检测图像中是否有人脸出现。
4手写识别,分类识别手写的数字。
5搜索领域,分类用于网页的抓取,排序和索引。