学习大数据,学什么?怎么学?今天给大家分享的文章就是分布式文件系统的高级特性及实战应用,各位大数据学习者都可以来看看。
大数据、hadoop、Python学习资料分享群 596471005 不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,
包括我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程,欢迎初学和进阶中的小伙伴。也可以关注我。
1、原理和运行机制、体系结构(最重要)
2、搭建实验环境,动手
3、编程:实现大数据的处理(Java、Scala)
============================================
一、什么是大数据?大数据处理的核心问题
1、什么是大数据?
举例:(1)商品推荐:问题1:大量的订单如何存储?
问题2:大量的订单如何计算?
(2)天气预报:问题1:大量的天气数据如何存储?
问题2:大量的天气数据如何计算?
2、大数据处理的核心问题
(1)数据的存储 -----> 今天晚上的重点
(2)数据的计算: mapreduce
3、Hadoop和Spark:一般来说,数据都是存在HDFS中
二、什么是分布式文件系统(大数据的存储)
1、Google的论文:GFS(google file system)
2、画图:分布式文件系统的原理
3、Hadoop的安装方式
(1)本地模式: 1台
(2)伪分布模式: 1台
(3)全分布模式:至少3台
三、Hadoop的文件系统:HDFS
1、Demo:操作使用HDFS(伪分布)
2、组成HDFS的组件
(1)NameNode 名称节点
(2)DataNode 数据节点
(3)SecondaryNameNode:第二名称节点
3、项目实战:开发一个客户端,完成数据的上传
依赖的jar包:
$HADOOP_HOME 代表Hadoop的安装目录
$HADOOP_HOME/share/hadoop/common/*.jar
$HADOOP_HOME/share/hadoop/common/lib/*.jar
$HADOOP_HOME/share/hadoop/hdfs/*.jar
$HADOOP_HOME/share/hadoop/hdfs/lib/*.jar