数据挖掘1

数据挖掘过程的方法论,其中比较经典的是CRISP-DM(CRoss IndustryStandard Process- for Data Mining,跨行业数据挖掘标准流程),其中一共分为6个步骤:商业理解,数据理解,数据准备,建模,评估,发布。

统计学习划分为两种类型:监督学习,无监督学习

监督学习范畴,即对每一个自变量x都有一个因变量y一一对应;

对于有监督学习,响应变量【因变量于定量变量(即连续性变量,如GDP,企业年销售额)的话,我们把它定义为回归问题,而响应变量【因变量属于定性变量的话(即分类型变量,如违约客户与不违约客户,患病与不患病),我们定义为分类问题。


无监督学习,则只有自变量x,而没有y。例如我们能够获得零售企业当中每个会员的行为信息,我们可能希望通过无监督学习的方法(聚类)把会员划分为不同的客户细分群体(粉丝客户群,注重性价比客户群)。


回归分析泛指利用一个或者多个自变量通过拟合适当的函数关系式来预测因变量的方法。而在整个回归体系当中,最基础的莫过于普通最小二乘回归(Ordinary Least Square,简称OLS);一个自变量时称一元回归分析,或者多个自变量时称多元回归分析。

一元线性回归和多元线性回归都属于简单线性回归范畴,最直接的差异在于一元线性回归的自变量只有一个,而多元线性回归的自变量存在多个

衡量两个变量之间的线性相关程度的指标称为相关系数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值