Big Data 学习笔记【1】

最新推荐文章于 2021-05-19 11:42:25 发布

Cola_Jay

最新推荐文章于 2021-05-19 11:42:25 发布

阅读量754

点赞数

文章标签： hadoop 大数据数据存储 big data mapreduce

本文链接：https://blog.csdn.net/Cola_Jay/article/details/48643155

版权

俗话说得好：温故而知新。

开课两周了，趁讲的东西还不多，先随手记一下这两天学的东西。

先开始，约瑟夫讲了一堆数据存储设备的演变，从刚开始的1990s的只有1.4M的floppy drive，到softdrive（存储空间和floppy一样），再到100M的zip drive，到jazz drive（2GB），到ditto drive（2GB），到现在的U盘，移动硬盘。

所以多大的数据可以称之为大数据？约瑟夫说，250个最大容量的HDD可以被称之为big data。250x4TB=1000TB=1PB。我NEU这辈子都用不上大数据系统，原因很简单，没那么多人。

那现在数据爆棚的原因是什么，是因为web从1.0变成了2.0。web1.0意味着用户只能被迫看到网站上的东西而不能参与互动，也就是说网页都是静态的，网管让你看啥你就得看啥。而web2.0则不同，他是web1.0的进化体，用户可以从眼睛被qj的体验变成了可以参与互动。比如Amazon，淘宝这类网站，用户有自己的数据在网页上。所以这就是当今数据爆棚的原因。

下面是一些开始关于big data system技术的东西，当然是皮毛，没什么深奥的，入门嘛。

首先，big data system不能用于eventually persistent system，也就是money-related和time-related system。从这一点可以看出，关系型的数据库还是不会被代替的，因为它有这种即时性。大数据系统给人的感觉是把数据收起来然后自己一点点分析，像这种即时到账的事它做不来。

哦对，约瑟夫这个时候还讲了个coexist。没get到他的点。可能是说这两种系统必须相互依存吧。

big data system的最显著的特点：nosql。这学期估计要跟Hadoop和MongoDB接触的比较多。它们用的两种技术是：Distribution和Parallel Processing。

//Hadoop是什么？ MongoDB怎么用？

第一周的作业是读Google的4篇文章：GFS，MapReduce，BigTable和Chubby。通过这四篇文章大概了解了一下这种分布式系统的运作原理，当然，只是了解而已。Google不可能把技术写的那么详细，就算写了我也看不懂= =。

技术层面上的东西，这周开始入手MongoDB，之前我也用过，不过只是一些helloworld级别的入门操作，要玩转还要学一段时间。

先写到这里，去玩MongoDB了。