数据分析
-
目的: 把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律
-
大数据的采集和存储
- 系统日志采集:可以使用海量数据采集工具
- 互联网数据采集:网络爬虫
- APP移动端数据采集:SDK插件可以把用户信息上传
- 与数据服务机构进行合作
大数据分析模型建立步骤
-
业务调研
-
准备数据
-
浏览数据
-
变量选择
-
定义或发现模式
-
计算模型参数
-
模型的解释与评估
基本统计量
全表统计量
- 反应数据集中趋势
- 平均值
- 加权平均
- 中位数
- 众数
- 反应数据波动大小
- 极差
- 方差
- 协方差
皮尔森相关系数
-
变化范围[-1,1],绝对值越大相关性越强。
-
适用条件
-
通常假设为正态分布。(正态分布是许多统计方法的理论基础)
小结
推断统计:参数估计
点估计
-
极大似然估计
在只有概率的情况下,湖绿低概率直接将高概率时间认为是真实事件 -
点估计的评价
- 无偏性
- 有效性
区间估计
置信水平与置信区间
点估计与区间估计的异同
推断统计:假设检验
-
带有某种概率性质的反证法
-
小概率,概率 < 0.05
步骤
- 提出假设
- 原假设
- 备择假设
-
确定适当的检验统计量
-
规定显著水平和计算检验统计量的值
-
做出结论
t检验
-
单样本均数t检验t检验
-
两个独立样本均数t检验
-
配对样本均数t检验