Hadoop大数据分析及数据挖掘 读书笔记(1)

前言

阅读时间:20180318-20180322

来源:Kindle

数据挖掘基础

数据挖掘的概念:

从数据中“淘金”,从大量数据(文本)中挖掘出隐含的、未知的、对决策有潜在的关系、模型和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。
它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据技术和人工职能技术的综合。

数据挖掘的基本任务:

包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、职能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。

数据挖掘建模过程

![屏幕快照 2018-03-18 上午9.58.40](http://ovblf5i76.bkt.clouddn.com/2018-03-18-屏幕快照 2018-03-18 上午9.58.40.png)

1 目标定义
  • 任务理解
  • 指标确认

针对具体的挖掘应用需求
明确本次挖掘目标是什么?
系统完成后能达到什么样的效果?

2 数据采集
  • 建模抽样

抽样数据的标准,一是相关性、二是可靠性、三是有效性。

抽样的方式
随机抽样:比如按10%比例随机抽样
等距抽样:比如按5%比例,一共100组,取20、40、60、80、100
分层抽样:将样本分若干层次,每个层次设定不同的概率。
从起始顺序抽样:从输入数据集的起始处开始。
分类抽样:依据某种属性的取值来选择数据子集。如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。

  • 质量把控

  • 实时采集

3 数据整理
  • 数据探索

对所抽样的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必须的。
常用的数据探索方法主要包括两方面:数据质量分析,数据特征分析。

数据质量分析:得主要任务是检查原始数据中是否存在脏数据。包括缺失值分析、异常值分析、数据一致性分析。
数据特征分析:在质量分析后可通过绘制图标、计算某种特征量等手段进行特征分析,
主要包括
分布分析:能揭示数据的分布特征和分布类型。可用直方图、饼图、条形图等展示
对比分析:将两个相互联系的指标进行比较,从数据量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。比如,各部门的销售金额的比较、各年度的销售额对比。
统计量分析:用统计指标对定量数据进行统计描述,常从集中和离中趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量,最广泛是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分卫间距。

周期性分析:分析某个变量是否跟着时间变化而呈现出某种周期变化趋势。
贡献度分析:原理是帕累托法则(又称20/80定律)
相关性分析:分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图。多元线性回归。

  • 数据清洗
    数据清洗主要是删除原始数据集中的无关数据、重复数据、平滑噪音数据,刷选调与挖掘主题无关的数据,处理缺失值,异常值等。
    缺失值处理:删除记录、数据插补和不处理。
    异常值处理:直接删除、提油现有变量,进行填补。

  • 数据变换
    数据变换主要是对数据进行规范化处理,将数据转换成“适当”形势,以适用与挖掘任务与算法的需要。
    常见的数据变换方法,简单函数变换、规范化、连续属性离散化,属性构造,小波变换。

  • 数据规约
    数据规约产生更小但保持元数据完整性的新数据集。提高效率。主要包括属性规约和数值规约。

  • 数据集成
    数据来源往往分布在不同的数据源中,数据集成就是将数据源合并存在一个一致性的数据存储。

4 构建模型

样本抽取完并经预处理,对本次建模进行确认,是分类、聚合、关联规则、时序模式或者职能推荐,以便后续选用哪种算法进行模型构建。这一步是核心环节。
针对餐饮行业的数据挖掘应用,挖掘建模主要基于关联规则算法的动态菜品职能推荐、基于聚类算法的餐饮客户价值分析、基于分类与预测算法的菜品销售预测、基于整体优化的新店选址。

  • 模型发现
  • 构建模型
  • 验证模型
  • 10
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值