深入浅出数据分析读书笔记（head first into data analysis）

最新推荐文章于 2020-11-24 21:36:11 发布

Frog_in_a_well

最新推荐文章于 2020-11-24 21:36:11 发布

阅读量3.7k

点赞数 1

分类专栏：读书笔记文章标签：数据数据分析读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/frog_in_a_well/article/details/11975579

版权

读书笔记专栏收录该内容

2 篇文章

订阅专栏

第一章

我要研究的对象是什么，分析的重点是什么，我要解决什么？

第二步：将主要的大问题分解为无数的小问题，当小问题解决了，大问题自然迎刃而解。

第三步：评估，将得到的数据拆分对比得出有用的结论。

第四步：从分析评估中给出决策。

注意：分析与评估是基于正确的信息基础的，如果是从错误的信息中得出的结论，那么又得从头开始分析。

第二章：实验

通过数据的走势异常判断可能得原因，越多的比较越能发现潜藏深处的问题

有时候我们确定了一对因果关系，我们需要将因果关系倒过来推一下比较好

作为分析师需要不断的考虑混杂因素的影响

做实验的时候常常需要有控制组和实验组，但是即使是这样也不免有混杂因素的影响

可比性？一个大区域中的若干小区域

随机能够将混杂因素均匀的分散至若干个小区域，最终达到化解混杂因素的目的

控制组是原始对照的作用，实验组才是用于观察效果

在统计的课程中学习到：实验的两组间必须有相关变量，还有独立变量，如果出了独立变量其他的变量都一样，那么实验的结果与独立变量的相关性就越高。在一个疫苗试验中，控制组注射同样剂量的其他试剂，而不是什么都不用做，因为这样才有可比性，这样可以排除一些心理的影响对实验结果造成的误差。

第三章：

最优化问题

当你希望尽量多的获得某种东西，而为了实现这个目的需要改变其他一些量的值，就是一个最优化问题。

一切模型都是错误的，但其中一些是有用的 by george box

我们无法规定全部的假设条件，但是只要确实一个重要的假设条件，分析结果就可能毁掉。

第四章图形让你更精明

要是手头数据庞杂，而且对于如何处理这些数据没有把握，这时只要记住你的分析目标就行了：记住目标，目光停留在和目标有关的数据上，无视其他。

着眼于问题，只要数据的分析能够解决客户的问题，不管是平凡还是精美都没关系。

数据图形化的根本在于正确比较

一个优秀的图形所具备的优点：

-展示了数据

-做了高明的比较

-展示了多个变量

用散点图探索因果关系

数据图形化的大师：Edward tufte

我们能从数据的图形趋势推论出一个结果，但是其中的因果关系更值得深思。

第五章假设检验

观察数据变量有个好方法看变量间是正相关还是负相关，将各个变量利用正负相关性绘制一个模型图。

因为现实中的各种原因呈网络关系，并非线性关系。

作为一个分析师，需要在因果的网络中看出门道，需要开阔的视野，

假设检验的核心是证伪

无需选出最合理的假设，只需剔除无法证实的假设

到了最后如果还是不能排除一些其他的选项，那么需要借助诊断性证据排出优先级。

诊断性证据是指那些有区分度的证据，对各个选项的贡献度不一样。

第六章贝叶斯统计

不能忽视条件概率，需要考虑基础概率来计算我们的生活

有时候将概率转换为整数可以有效的避免失误

记住一个公式：

P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)

第七章信念数字化

将可能大有可能有机会肯定等模糊的概率词汇换成精确的百分比。

始终记住确认问题才是第一位的

stdev()用来计算一组数的标准偏差，表示数据基于平均值的离散程度

当既定的分析已定，出现新的关键信息，需要在基础概率上做操作，用到贝叶斯统计

第八章启发法

启发法是从直觉走向最优化的桥梁

直觉往往是靠不住的，看到的是片面，但是启发法可以看到多个选项。

以一个点出发向结果延伸，如果不令人信服，结果之前还需要添加点路径？

第九章数字的形状

R语言的一些基本操作：

source（“”）用于下载一个表

save.image 用于保存表

直接输入表的名字，用于打开一个表

hist(表名字$自变量，breakes=)breakes用于分组的个数

sd(表名字$自变量) 用于计算标准差

summary(表名字$自变量) 返回总体的汇总统计值

help（函数名）弹出帮助网页

标准偏差：用于计算样本中的值相对于平均值的分散程度

总体标准偏差σ=Sqrt[(∑(xi-μ)^2) /N]，公式中∑代表总和，μ代表总体x的均值，^2代表二次方，Sqrt代表平方根。

数据分析就是发现条件选择对于结果的影响，所以我们往往需要做到发现图中的一些细节。

第十章回归

算法为了完成某个计算而执行的任何过程。

预测是数据分析的重头戏，有些人认为把假设检验和预测加起来就等于数据分析

尽量多使用散点图，只要数据涉及两种变量，应该首先考虑使用散点图。

head（文件名，n=x）读取前X行的内容

plot(employees$requested[employees$negotiated == TRUE],employees$received[employees$negotiated == TRUE])

作出散点图，分别为X，Y轴变量。

cor(employees$requested[employees$negotiated == TRUE],employees$received[employees$negotiated == TRUE])

用于计算两个变量之间的相关系数越大越好最大为1

为了根据这些基本数据算出一条可以预测的曲线，用到了线性模型模块

mylm <- lm(received[negotiated == TRUE] ~ requested[negotiated == TRUE],data=employees)

mylm$coefficients

y=intercept+k*x

R如何计算斜率？

第11章：误差

低劣的预测比不预测更糟

观察模型的时候一定要想一想假设有何道理，不合适的假设会使模型完全失效，最坏的结果是极具欺骗性的模型。

我们的分析基于现有的数据只能作用于现有的自变量范围（内插法）

实际结果与预测结果的偏差叫机会误差

在统计学中机会误差叫残差，对残差的分析是优秀的统计模型的核心

误差固然可恨，但是我们可以控制误差，预测的时候给出范围比给出具体的数值更加有效

误差的分布在不同的区域会呈现出不同的现象，我们可以通过分割来管理误差，将数据分拆为几个组。

我们将整体分为多个部分能够更好的管理误差，诠释现象

> mylmbig <- lm(received[negotiated == TRUE & requested > 10] ~ requested[negotiated == TRUE & requested > 10],data=employees)

> mylmsmall <- lm(received[negotiated == TRUE & requested < 10] ~ requested[negotiated == TRUE & requested < 10],data=employees)

> summary(mylmbig)

summary（mylmsmall)$sigma

通过将模型拆分进行更加细致的分析从而说服客户

Frog_in_a_well CSDN认证博客专家 CSDN认证企业博客

码龄11年

31: 原创

106万+: 周排名

57万+: 总排名

10万+: 访问

: 等级

1428: 积分

60: 粉丝

42: 获赞

12: 评论

88: 收藏

私信

关注

热门文章

分类专栏

最新评论

凸优化（convex optimization）第二讲：convex set
Detached99: 讲的很透彻，赞！
图说微积分（三）函数
小胡电子: 指数函数长什么样子这里应该错了吧
凸优化（convex optimization）第二讲：convex set
不懂音乐的欣赏者: 博主你好，看了你的这钱博文感觉受益匪浅，请问我可以转载吗？
Learning theory 机器学习原理
ArtanisL 回复 Dongdong Bai: 我不是很清楚你的问题，在此我表明一下我的看法：你说的应该是对某一个假设h，但是我们并不想只对一个h，training error以很高的概率逼近generalization error，我们想要证明的是对于假设空间H中所有的假设h都会是这样的情况：对于所有的h in H，training error以很高的概率逼近generalization error。
Learning theory 机器学习原理
Dongdong Bai: 博主的笔记讲的很好，但我仍有一事不明，就是为什么需要证明在数据集D上对于假说集H出现Bad Data发生的概率很低？因为已经证明数据集D对于某个固定的h发生Bad data的概率很小，则如果算法A选择某个Ein很小的h作为g，则可以认为Eout也很小，也即是保证机器学习算法A已经学到了东西，为什么还需要证明在数据集D上对于假说集H出现Bad Data发生的概率很低呢？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。