春眠不觉晓,大数据分析模型知多少

数据分析

  1. 目的: 把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律

  2. 大数据的采集和存储

  • 系统日志采集:可以使用海量数据采集工具
  • 互联网数据采集:网络爬虫
  • APP移动端数据采集:SDK插件可以把用户信息上传
  • 与数据服务机构进行合作

大数据分析模型建立步骤

  1. 业务调研

  2. 准备数据

  3. 浏览数据

  1. 变量选择

  2. 定义或发现模式

  3. 计算模型参数

  4. 模型的解释与评估

基本统计量

全表统计量

  1. 反应数据集中趋势
  • 平均值
  • 加权平均
  • 中位数
  • 众数
  1. 反应数据波动大小
  • 极差
  • 方差
  • 协方差

皮尔森相关系数

  1. 变化范围[-1,1],绝对值越大相关性越强。

  2. 适用条件

  3. 通常假设为正态分布。(正态分布是许多统计方法的理论基础)

小结

推断统计:参数估计

点估计

  1. 极大似然估计
    在只有概率的情况下,湖绿低概率直接将高概率时间认为是真实事件

  2. 点估计的评价

  • 无偏性
  • 有效性
    在这里插入图片描述

区间估计

置信水平与置信区间
在这里插入图片描述

点估计与区间估计的异同

在这里插入图片描述

推断统计:假设检验

  1. 带有某种概率性质的反证法

  2. 小概率,概率 < 0.05

步骤

  1. 提出假设
  • 原假设
  • 备择假设
  1. 确定适当的检验统计量

  2. 规定显著水平和计算检验统计量的值

  3. 做出结论

t检验

  1. 单样本均数t检验t检验

  2. 两个独立样本均数t检验

  3. 配对样本均数t检验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值