一、什么是大数据?
logo:
举例:
1、商品推荐:在天猫中找到过去1个月中卖得好的商品。问题1:大量的订单如何存储?问题2:如何计算大量的订单?
(1)大数据的存储 (2)大数据的计算
2、天气预报:最近两三天的天气预报情况。问题1:大量的天气数据如何存储?问题2:如何计算大量的天气数据?-
(1)大数据的存储 (2)大数据的计算
大数据核心问题:
(1)大数据的存储--->分布式文件系统-->HDFS(hadoop distributed file system)
(2)大数据的计算-->分布式计算-->MapReduce计算模型(Java程序)
五个特性(五个V):
Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Varacity(真实性)
二、为什么学习大数据
在上一篇博客中已经介绍到,这是一个高薪的行业,而且顺应IT技术发展方向。还有一点,就是得数据者,得天下。
三、如何学习大数据Hadoop?
1、学什么?
原理和运行机制非常重要 ,hadoop可以看成是一个山寨版的Google,它的由来是Google的三篇论文。
(1)根据GFS( google file system),形成HDFS
(2)根据PageRank(搜索排名),形成MapReduce计算模型
(3)根据BigTable(大表),形成NoSQL数据库:HBase
拓展:
Google的低成本思想
不适用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务
全世界多个数据中心,有些附带发电厂
运营商向Google倒付费
2、多练习,多写程序
安装和配置Hadoop,程序运行需要大量重复的练习,熟能生巧。
3、做Demo,项目实战
四、需要具备的基础
Java SE
Linux基础
了解一些关系型数据库,比如:Oracle、MySQL等等。
五、小结
Hadoop,值得一学,更多内容请期待后面博文。