《深入浅出数据分析》读书笔记

最近看了head first系列,重读了《深入浅出数据分析》,发现这是一本很好的书,在思维上开阔的不错,通过案例培养数据思维,把思路讲的很清楚,现总结笔记如下:

 

一、数据分析引言:分解数据

1、确定——分解——评估——决策

重在如何将一个大问题分解成若干易行的小问题,将手头的资料汇总为有用的格式。

2、心智模型:你对外界的假设和你确信的观点。心智模型决定你的观察结果。统计模型取决于心智模型。心智模型应当包括你不了解的因素。也就是说你以为这个世界是什么样子的,你就会看到什么样子的世界,不能以偏概全。

3、从原始数据中获得信息,从而深入挖掘数据。

 

二、实验:检验你的理论

  1. 客户调查
  2. 比较法:这个案例中运用了对比分析法、平均分析法、交叉分析法。
  3. 观察研究法:被研究的人自行决定自己属于哪个群体的一种研究方法。
  4. 混杂因素:研究对象的个人差异,他们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。
  5. 控制组(对照组):一组体现现状的处理对象,未经过任何新的处理。有比较就要有对照,就要有控制组和实验组。

实验是检验真理的唯一标准。

 

三、最优化:寻找最大值

  1. 约束条件:需要考虑的因素,c
  2. 决策变量:可以控制的因素,x
  3. 目标函数:p

  1. 任何最优化问题都有一些约束条件和一个目标函数
  2. 可行区域:约束条件范围内的区域
  3. “一切模型都是错误的,但其中一些是有用的”
  4. 详细的假设条件,以帮助优化模型。

 

四、数据图形化

  1. 散点图:散点图是探索性数据分析的工具,X轴自变量,Y轴因变量。可以用R创建散点图

 

五、假设检验:假设并非如此

  1. 变量之间正相关/负相关
  2. 假设检验的核心是证伪。只需要剔除无法证实的假设

 

六、贝叶斯统计

  1. 条件概率:以一件事情发生为前提的另一件事发生的概率。

P(+|L):表示在患流感的前提下,试验结果为阳性的概率。

  1. 基础概率:又叫事前概率。
  2. 贝叶斯规则:

PL+=P(+|L)P+L+P(+|-L)

 

七、主观概率:信念数字化

  1. 主观概率:用一个数字形式的概率表示自己对某事的确认程度。是对分歧内容和分歧大小的一种精确规范。
  2. 标准偏差:分析点与数据集平均值的差距。Excel里计算标准差的公式是STDEV

 

八、启发法:凭人类的天性作分析

  1. 启发法:一种解决问题的方法,可能会得出正确的答案,但不保证得出最优化的答案。
  2. 快省树:描述启发法的图形。快:完成这个过程费时不多;省:不需要大量认知资源。

 

九、直方图

  1. 直方图:显示数据点在数值范围内的分布情况

 

展开阅读全文

没有更多推荐了,返回首页