《head first 数据分析》

2018-6-11

前几天又把这本书读了一遍。略过比较简单的章节,主要重看了贝叶斯定理、直方图、线性回归、误差、数据库和数据(csv)整理六个章节。

贝叶斯定理可以评估新信息对先前预估概率对影响。屏蔽了个人主观对新信息对矫枉过正,计算出一个更正确对概率。人脑很难一次性处理多个事,记忆也不太好——之前概率评估的细节在新信息来临时可能遗忘一部分,这就影响了准确的判断。说实在的,这本书对贝叶斯讲得太少,只是引用的话我现在还不太会。概率统计是塑造世界观的一个重要概念,图书馆搜了下,相关书籍很多,今后一定要拿来研究下。

直方图、线性回归、误差三章让我对旧概念有了新认识。这些都是大学里学过的,当时没有仔细学,更没有想过能应用到现实生活中。用鲜活的情景讲冷冰冰的知识,这可能是我喜欢head first系列书籍的原因吧。除此之外,把知识和实操深入结合也是该系列的优点。缺点是涉及内容不深不全,这受设计架构限制。

直方图主要讲数据分布,主要概念有平均数、标准偏差。线性回归主要讲概率预测。误差主要讲线性回归预测时的误差,用均方根来提供预测范围。

数据整理这章主要设计规则文本文件整理。其实所有“规则明确,机械重复”的情况都适用编程。编程,机械处理将人力解放。规则的文件可以用excel函数或正则表达式处理。正则表达式内容博大精深,今后一定研究下。对前段时间beancount卡住的银行csv导入一定有帮助。

展开阅读全文

没有更多推荐了,返回首页