目录
建模基础
分类与回归
• 应用:信用卡申请人风险评估、预测公司业务增长量、预测房价等
• 原理:
分类,将数据映射到预先定义的群组或类。算法要求基于数据属性值来 定义类别,把具有某些特征的数据项映射到给定的某个类别上。
回归,用属性的历史数据预测未来趋势。算法首先假设一些已知类型的 函数可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程 度最好的函数。
• 区别:分类模型采用离散预测值,回归模型采用连续的预测值。
聚类
• 应用:根据症状归纳特定疾病、发现信用卡高级用户、根据上网行为对客户
分群从而进行精确营销等
• 原理:
在没有给定划分类的情况下,根据信息相似度进行信息聚类。
聚类的输入是一组未被标记的数据,根据样本特征的距离或相似度进行 划分。划分原则是保持最大的组内相似性和最小的组间相似性。
时序模型
• 应用:下个季度的商品销量或库存量是多少?明天用电量是多少? • 原理:
描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。
与回归一样,用已知的数据预测未来的值,但这些数据的区别是变量所 处时间的不同。重点考察数据之间在时间维度上的关联性。