一般来说,建模是循环做的。
一、模型的衡量标准
1、generating a good model
准确性Accurate
稳定性stable
对同一个样本的预测值是唯一的,稳定的
推广性general
建模使用的数据决定了模型的推广性。
2、Ease of Use 是否好用
generate a fit
measure accuracy
分类:混淆矩阵,ROC、AUC;
回归:均方差;
make predictions
预测
switch algorithm
神经网络一组模型,可以自己设计出一套模型
share results
模型的可解释性
3、Feature selection
变量的筛选,过滤无关变量,保证模型的效果
uncorelated predictor:
corelated predictor:
二、模型分类:
1、回归问题
得到一个数字(x,y)
多元线性回归
多元非线性回归
广义线性回归模型
(eg 逻辑回归,不满足线性回归条件,但是很解决。y值不连续)
神经网络***
曲线拟合
2、分类问题
得到一个类别 (x,y)
神经网络
逻辑回归
(逻辑回归得到一个概率值,可以用作分类。判断阈值可以根据业务条件进行设置)
判别分析
朴素贝叶斯分类
SVM
决策树
组合算法
3、聚类问题
得到一推样本 (x) 将样本聚成几堆,不清楚什么是y