hadoop大数据分析与挖掘实战(读书笔记1)

第一章节是从一个餐厅的角度出发,引出来许许多多的相关概念。

第一个概念就是什么是数据挖掘,这个简单,望文生义就好了。它的名字本身就诠释了它的内涵。

基本任务还是得记一下:

1分类与预测。(有点像量化,股票交易)

2聚类分析()

3关联规则()

4时序模式()

5偏差检测()

关于定义挖掘目标,就是什么菜品推荐,门店开在哪,这些问题。可以不多说。

关于数据取样,没啥好说的。

 

然后重点在后面,

数据质量分析:有缺失值怎么办?(就是统计一下缺失率什么的,然后删掉或者补值呗)

有异常值怎么办?(识别出来然后删掉呗。怎么识别,用四分位图,异常值小于下四分位-四分位距 或大于上四分位+四分位距)  

数据矛盾怎么办?(可能就是数据旧了呗,比如说换了手机号啥的。更新一下就好啦)

就是解决这三个问题。

 

数据特征分析:分布分析:直方图,分布图,雷达图啥的。

对比分析:折线图呗。还记得文明5里文明得分折线图么?

统计量分析:计算均值,方差,标准差,找中值呗

周期性分析:列出时间表,看看有没有周期性呗。

贡献度分析(帕累托分析):做帕累托图,直方图+折线(各菜品量+贡献线)

相关性分析:散点图,回归线性分析呗

 

数据预处理:

数据清洗(删除缺失值,或用拉格朗日,牛顿法补缺失值。删除或不处理异常值,分析异常值。)

数据集成(合并数据源,解决数据重复冗余的工作)

数据变换(简单函数变换比如取对数,规划化按比例缩小到[0,1], 连续属性离散化,新属性构造,小波变换)

数据规约(属性规约,就是删属性呗,数值规约,就是减少数据量呗)

 

挖掘建模与模型评价

挖掘建模就是考虑是哪个问题:

1分类与预测。(有点像量化,股票交易)

2聚类分析()

3关联规则()

4时序模式()

5偏差检测()选取相应的模型。

当然还要用无关的测试集,测试一下来挑战一下模型

 

转载于:https://www.cnblogs.com/zzzPark/p/7298325.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值