数据分析与挖掘的基本概念
- 数据分析:采用适当的统计学方法,对搜集来的数据进行描述性分析和探索性分析,并从描述和探索的结果中,发现数据背后存在的价值信息,用以评估现状和修正当前的不足
- 数据挖掘:数据挖掘广泛交叉数据库知识、统计学等技术方法,对搜集来的数据进行“采矿”,发现其未知的规律和有用的知识,进一步应用于数据化运营,让数据产生更大的价值
数据分析与挖掘的区别
- 定义:数据分析是描述和探索性分析,评估现状和修正不足;数据挖掘是技术性的采矿过程,发现未知的模式和规律
- 侧重点:数据分析侧重实际的业务知识;数据挖掘侧重挖掘技术的落地,完成“采矿”过程
- 技能:数据分析使用统计学、数据库、excel、可视化等;数据挖掘要求过硬的数学功底和挖掘技术
- 结果:数据分析需结合业务知识解读统计结果;数据挖掘的结果是模型或规则
数据挖掘的流程
- 明确目标
- 搜集数据
- 清洗数据
- 构建模型
- 模型评估
- 应用部署
数据的基本概念
-
数据集由数据对象构成,一个数据对象表示一个实体
-
数据对象由属性及其值构成
-
数据对象以元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性
-
属性是一个数据字段,表示数据对象的一个特征
-
一个属性的类型由该属性可能具有的值的集合决定
-
连续型特征
- 特征可以为实数空间任意取值
- 例如:温度、身高、体重、价格等
- 通常由浮点型表示
-
离散型特征
- 其值域为有限集或可列集
- 如果一个集合与自然数集合之间存在——对应关系,则这个集合称为可列集
- 例如性别、职称
数据的基本统计描述
-
获得数据总体印象,更好的理解数据
-
主要内容:
-
度量数据的中心趋势:算术均值(mean)、中位数(median)、众数(mode)
-
度量数据的离散程度:极差、四分位数、方差、标准差和四分位数极差
-
极差:该集合的最大值(Maximum)与最小值(Minimum)之差
-
方差:
-
标准差:是方差的平方根
-
均值:
-