这是我自己写的一个教程,是我几年来用R语言的一些经验整理,写的不好,有些观点可能也不对,有些技术用的可能也不好。如果有问题,还请理性提出。
数据分析之我见
数据分析是一个久已有之的行当了,最早出现的地方,应该是可能是在几百年前的科学领域,绝大多数的科学,其实都是实验+数据的模式,实验自然就是各种试管仪器激光化学,但是实验最终会产出数据,科研的后半部分就是数据分析。这样的模式一直延续到的今天,今天的大部分理工科博士做的工作,都是数据分析,所以,如果想要找数据分析方面的人,其实理工科博士是很合适的对象。
另外,数据分析的最主要工具是统计学。相比于机器学习、人工智能等等新潮的科技,统计学绝对拥有非常渊源的历史。当然,统计学也是有高低之分的。计算一个平均数叫做统计,建一个统计模型也是统计,这两者之间差距是天壤之别的。再大部分的问题中,统计学一般都能给出比较好的解答。诚然再AlphaGo这种问题上,最新的人工智能和深度学习在准确度上更胜一筹,但是就数据分析而言,统计学再运用的广度和方便上,依然是数据分析中无可替代的一个部分。
最新的人工智能(AI)对我来说是一个很尴尬的词语,因为我本科的时候,现今的“人工智能”中的大部分东西,还被叫做“模式识别”(我用的是清华大学张学工的教材)。简而言之就是,用数据来做分类、聚类、预测……之类的工作。但是在我本科毕业之后,这其中的很多内容被叫做人工智能、又被叫做机器学习,然后又被叫做数据科学……所以到了今天,