1、分类问题:
分类问题属于预测性问题,他和普通预测问题的区别在于预测的结果是类别而不是一个具体的数值。
分类问题可以看成有二分类问题和多分类问题,解决二分类问题(0/1问题)时,遇到其中一类的概率不方便计算时,可以通过计算另一类问题的概率来推测第一类问题的概率。
这里还要弄懂一个训练集和预测集的概念。通常给出的数据分成训练集和测试集,训练集用来建立模型,测试集用来验证模型。
应用:
1、指导市场营销:以前引进的类似产品的数据,哪些消费者决定去买或者不买的决策,这个决策形成了类属性,有关这些消费者的各种人口统计的。生活方式的以及公司关系有关的信息(职业、住址、收入等)
2、探测欺诈:把信用卡交易和持有人的信息作为属性(何时顾客买,买什么,按时付账的频率等),把过去的交易标位欺诈或者公平交易,这形成类的属性,要观测一个账户信用卡交易,利用这个模型来探测欺诈。
3、消费者损耗等:利用过去和现在的顾客的交易的详情记录,发现属性(顾客打电话的频率,在哪里打电话,经济状况,婚姻状况等等),把这个顾客标位重视的或者是不忠实的,找到关于忠实的模型。
决策树、逻辑
回归(Logistics回归)、判别分析、神经网络、Inpurity、Entropy、Chi-square、Gini、Odds、Odds Ratio...
2、聚类问题:
不属于预测性问题