记录一下笔者所阅读过的与大数据相关的书籍,以及阅读感受,以期为同仁提供此许参考建议。
1. 《数据科学实战》(英文版本名称: Doing data science)
读后感:
这是一本有态度、有观点的书。作者在其中表达了对业界一些关于大数据说法的不认可。同时,作者没有装作万事通,而是很实在地讲,有些分析思路,他也不知道什么好什么不好,而要通过实践来尝试。比如第22页,作者写道 “你怎么知道什么数据该用什么模型? 这一半是科学,一半是艺术。这个问题正是打开数据科学大门的钥匙,可惜的是,本书中就这个问题能够给出的指引非常有限。只能说模型的选择是建模过程中的一环,你需要对底层数据结构做出大量假设,应该有一个标准来规范如何选择模型和解释这样选择的理由。但是我们还没有统一的规范。所以只能摸着石头过河,希望经过深思熟虑,能制定这样一套规范。必须承认,我们也不知道从哪儿开始,如果知道的话,我们已经知道了生命的意义。但是,我们会尽力在书中向你展示我们在面对这样的问题时要怎么做。”
但同时,这本书也有一些不足之处,就是有些章节介绍得过于简略,如第5章,逻辑回归,第8章,推荐引擎,均没有详细介绍算法原理,而是对参数估计的方法、降维有较多介绍。而且看的过程中也发现,本书的内容貌似有许多企业界人士参与撰写,这样的好处是能感受到国外工业实践中真实的一些做法。
总体