数据分析基础

本文介绍了数据分析的基础知识,包括数据获取途径如数据仓库、监控与抓取,常用的数据学习平台如kaggle和天池。还探讨了单因子探索与可视化,如集中趋势、离中趋势的度量,并介绍了pandas库在数据分析中的应用。
摘要由CSDN通过智能技术生成

数据分析概述

数据分析的含义与目标

  • 统计分析方法
  • 提取有用信息
  • 总结与概括
    数据分析概述:
    在这里插入图片描述
数据获取
  • 数据仓库

    • 将所有业务数据汇总处理,构成数据仓库(DW)
      • 全部事实记录
      • 部分维度与数据的整理(数据集市DM)
    • 数据库 vs 仓库
      • 数据库面向业务存储(高并发,快速读写,数据精简),仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述,例如:购买主图,谁,时间,物品…)
      • 数据库针对应用(OLTP 联机事务处理 ),仓库针对分析(OLAP 联机分析处理)
      • 数据库组织规范,仓库可能冗余,相对变化大,数据量大
  • 监控与抓取

    • 直接解析网页,接口,文件的信息
    • python常用工具:urllib,urllib2,requests,scrapy,PhantomJS,beautifulSoup,Xpath(lxml)
  • 填写,日志,埋点

    • 用户填写信息
    • APP或网页埋点(特定流程的信息记录点)
    • 操作日志
  • 计算

    • 通过已有数据计算生成衍生数据
常用的数据学习网站

kaggle
天池

单因子探索和可视化
  • 集中趋势:

    • 均值,
    • 中位数,
    • 众数,
    • 分位数 四分位数 n 是数据的数量
      q1= (n+1)*0.25
      q2= (n+1)*0.5
      q3= (n+1)*0.75
  • 离中趋势
    值越大,数据越离散
    值越小,数据越集中

    • 标准差
      μ \mu μ是 均值
      σ = 1 N ∑ i = 1 2 ( x i − μ ) 2 \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^2(x_i - \mu)^2} σ=N1i=12(xiμ)2

    • 方差
      方差 = 标准差的 平方

    • 正太分布
      在这里插入图片描述
      [-1 σ \sigma σ , σ \sigma σ] 0.69
      [-1.96 σ \sigma σ ,1.96 σ \sigma σ] 0.95
      [-2.58 σ \sigma σ ,2.58 σ \sigma σ] 0.99

  • 数据分布

    • 偏态系数
      数据平均值偏离状态,一般一个对称性的分布,中位数和均值相等或接近。如果相差很大,那这个数据就偏态的
      S = 1 n ∑ i = 1 m ( x i − x ‾ ) 3 ( 1 n ∑ i = 1 m ( x i − x ‾ ) 2 ) 3 2 S = \frac{\frac{1}{n}\sum_{i=1}^m(x_i-\overline{x})^3}{(\frac{1}{n}\sum_{i=1}^m(x_i-\overline{x})^2)^{\frac{3}{2}}} S=(n1i=1m(xi

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值