财经数据分析(第一周笔记整理)

数据挖掘任务主要分为两种:描述性任务预测性任务

1.描述性任务
定义描述性任务将发掘数据中潜在的规律,找出目前可以理解与描述数据集中数据之间的联系,并刻画数据集中数据的一般特性。
描述性任务一般采用的挖掘步骤:业务理解、数据理解、数据准备(即对数据进行预处理、生成相关特征)、模型建立(即属性之间的相关性分析、关联规则分析、聚类分析等)、模型评估。

下面对这几个挖掘步骤作为详细解释
1)业务理解:确定待解决的问题(如电信用户信用度逐年下降,产品销售量逐年下降)
2)数据理解:①收集原始数据②描述数据(即对数据属性进行文字描述。产生数据描述报告)③探索数据(对数据进行基本 分析,验证数据质量,从而挖出更有用的信息,为进一步的研究指明方向,一般用可视化的方式展示,如数据分布的情况、数据的最大最小值、数据的平均值)
3)数据准备:①选择数据(并不是所有数据都适合挖掘)②清理数据(去除噪声及离群点等)③构造数据(生成新的字段或记录,如泰坦尼克号中根据乘客称谓生成的姓氏或称谓)④集成数据(对相关数据进行合并,如泰坦尼克号中将父母儿女数与兄弟姐妹数合并成家庭总人数)⑤格式化数据(使之适合数据挖掘的需要,如归一化)
4)模型建立:①选择建模技术

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值