Hadoop初识

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/chenlushun12/article/details/79946592

Hadoop和Hadoop 生态圈

Hadoop 分布式存储,分布式计算的工具

大数据到底是什么?为什么要学习它?

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的特点:

  • 量大
  • 数据来源复杂(音视频等等)
  • 数据的分析比较复杂
  • 数据的价值、意义比较大

为什么要学大数据呢?

  • 国家层面支持
  • 教育部支持,很多高校开设大数据课程
  • 政策优惠
  • 企业的决策,数据分析
  • 机器学习、深度学习等

linux+hadoop+mr+zookeeper+hive+sqoop+hbase+flume

部署一个单机的hadoop

软件环境:

  • ssh
  • java

下载地址:
http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/

mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar grep input output 'dfs[a-z.]+'
cat output/*

ha

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页