俗话说得好:温故而知新。
开课两周了,趁讲的东西还不多,先随手记一下这两天学的东西。
先开始,约瑟夫讲了一堆数据存储设备的演变,从刚开始的1990s的只有1.4M的floppy drive,到softdrive(存储空间和floppy一样),再到100M的zip drive,到jazz drive(2GB),到ditto drive(2GB),到现在的U盘,移动硬盘。
所以多大的数据可以称之为大数据?约瑟夫说,250个最大容量的HDD可以被称之为big data。250x4TB=1000TB=1PB。我NEU这辈子都用不上大数据系统,原因很简单,没那么多人。
那现在数据爆棚的原因是什么,是因为web从1.0变成了2.0。web1.0意味着用户只能被迫看到网站上的东西而不能参与互动,也就是说网页都是静态的,网管让你看啥你就得看啥。而web2.0则不同,他是web1.0的进化体,用户可以从眼睛被qj的体验变成了可以参与互动。比如Amazon,淘宝这类网站,用户有自己的数据在网页上。所以这就是当今数据爆棚的原因。
下面是一些开始关于big data system技术的东西,当然是皮毛,没什么深奥的,入门嘛。
首先,big data system不能用于eventually persistent system,也就是money-related和time-related system。从这一点可以看出,关系型的数据库还是不会被代替的,因为它有这种即时性。大数据系统给人的感觉是把数据收起来然后自己一点点分析,像这种即时到账的事它做不来。
哦对,约瑟夫这个时候还讲了个coexist。没get到他的点。可能是说这两种系统必须相互依存吧。
big data system的最显著的特点:nosql。这学期估计要跟Hadoop和MongoDB接触的比较多。它们用的两种技术是:Distribution和Parallel Processing。
//Hadoop是什么? MongoDB怎么用?
第一周的作业是读Google的4篇文章:GFS,MapReduce,BigTable和Chubby。通过这四篇文章大概了解了一下这种分布式系统的运作原理,当然,只是了解而已。Google不可能把技术写的那么详细,就算写了我也看不懂= =。
技术层面上的东西,这周开始入手MongoDB,之前我也用过,不过只是一些helloworld级别的入门操作,要玩转还要学一段时间。
先写到这里,去玩MongoDB了。