趁着寒假的功夫,断断续续地学了一下开始了coursera上Data Science专项课程的第一项The Data Scientist's tool box,以下就简单回顾一下学过的内容吧~~
感觉这课废话比较多,干货比较少,主要就是:
- 安装了R
- 叫你用github,不过我在开始这门课之前才刚刚学会怎么用github(简单的用吧)
- 讲了讲什么是大数据,不过总感觉这些东西没什么用,我也没记住多少。不过最后提到的一点倒不错,利用数据可以得到两个东西之间存在某种关系,但是这并不能表明他们之间就存在因果关系。如:研究鞋子的号码和认字能力时,会得到号码比较小,认字能力比较差这样的结果,但其实并不是鞋号的缘故,而是隐藏在其中的年龄和鞋号的关系影响的。这个例子我们当然很明显可以看出这其中存在着年龄这个实质的影响因素,可是如果是研究一些我们并不知道的问题(通常也应该是这样的,否则还要研究什么),就没法知道到底从数据得到的关系是不是因果关系了。那么这样的数据分析还有意义吗?怎样解决这个问题?
第一次真正开始上coursera上的课,开心的是上面的project都做对了,遗憾的是之前颓废了很久,错过了evaluate的时间,扣了这部分的分。
接下去再接再厉,好好学习。
想到什么再补充好啦!