数据分析基础
数据分析流程
- 目的和内容:项目-整体框架、业务问题-分析对象
- 数据收集:准确、有效(SQL语言)
- 数据预处理:检验、清洗
- 数据分析:方法、软件
- 数据表现:表、图形
- 数据报告:整体框架、结论、建议、解决方案
数据分析方法
- 预处理加工:描述性统计分析(趋势、分布);相关分析(单一、多个、相关系数)
- 基于梳理统计:方差分析、回归分析、因子分析
- 数据挖掘:
- 聚类分析(层次分析、K-均值、模糊聚类、高斯回归……);
- 分类分析(决策树、神经网络、贝叶斯分类、SVM、随机森林……);
- 回归分析(线性回归、逻辑回归……)
基础工具
- Excel、SQL:SPSS、Eviews、Tableau……
- R、Matlab、D3
- Python:Hadoop、Hive
数据的趋势
统计中的简单概念
集中趋势
一组数据向某一中心值靠拢的程度。
- 平均数:算数平均数、加权算法平均数、几何算法平均数
- 众数
- 出险次数多,不受极端值影响
- 在数量较大时更有意义 - 分位数:分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
离中趋势
- 极差
- 分位差:与分位矩有关
- 平均差
- 方差和标准差
- 离散系数: 方 差 / 平 均 数 方差/平均数 方差/平均数