数据分析概述
数据分析的含义与目标
- 统计分析方法
- 提取有用信息
- 总结与概括
数据分析概述:

数据获取
-
数据仓库
- 将所有业务数据汇总处理,构成数据仓库(DW)
- 全部事实记录
- 部分维度与数据的整理(数据集市DM)
- 数据库 vs 仓库
- 数据库面向业务存储(高并发,快速读写,数据精简),仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述,例如:购买主图,谁,时间,物品…)
- 数据库针对应用(OLTP 联机事务处理 ),仓库针对分析(OLAP 联机分析处理)
- 数据库组织规范,仓库可能冗余,相对变化大,数据量大
- 将所有业务数据汇总处理,构成数据仓库(DW)
-
监控与抓取
- 直接解析网页,接口,文件的信息
- python常用工具:urllib,urllib2,requests,scrapy,PhantomJS,beautifulSoup,Xpath(lxml)
-
填写,日志,埋点
- 用户填写信息
- APP或网页埋点(特定流程的信息记录点)
- 操作日志
-
计算
- 通过已有数据计算生成衍生数据
常用的数据学习网站
kaggle
天池
单因子探索和可视化
-
集中趋势:
- 均值,
- 中位数,
- 众数,
- 分位数 四分位数 n 是数据的数量
q1= (n+1)*0.25
q2= (n+1)*0.5
q3= (n+1)*0.75
-
离中趋势
值越大,数据越离散
值越小,数据越集中-
标准差
μ \mu μ是 均值
σ = 1 N ∑ i = 1 2 ( x i − μ ) 2 \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^2(x_i - \mu)^2} σ=N1∑i=12(xi−μ)2 -
方差
方差 = 标准差的 平方 -
正太分布

[-1 σ \sigma σ , σ \sigma σ] 0.69
[-1.96 σ \sigma σ ,1.96 σ \sigma σ] 0.95
[-2.58 σ \sigma σ ,2.58 σ \sigma σ] 0.99
-
-
数据分布
-
偏态系数
数据平均值偏离状态,一般一个对称性的分布,中位数和均值相等或接近。如果相差很大,那这个数据就偏态的
S = 1 n ∑ i = 1 m ( x i − x ‾ ) 3 ( 1 n ∑ i = 1 m ( x i − x ‾ ) 2 ) 3 2 S = \frac{\frac{1}{n}\sum_{i=1}^m(x_i-\overline{x})^3}{(\frac{1}{n}\sum_{i=1}^m(x_i-\overline{x})^2)^{\frac{3}{2}}} S=(n1∑i=1m(xi−
-

本文介绍了数据分析的基础知识,包括数据获取途径如数据仓库、监控与抓取,常用的数据学习平台如kaggle和天池。还探讨了单因子探索与可视化,如集中趋势、离中趋势的度量,并介绍了pandas库在数据分析中的应用。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



