Hadoop和Hadoop 生态圈
Hadoop 分布式存储,分布式计算的工具
大数据到底是什么?为什么要学习它?
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特点:
- 量大
- 数据来源复杂(音视频等等)
- 数据的分析比较复杂
- 数据的价值、意义比较大
为什么要学大数据呢?
- 国家层面支持
- 教育部支持,很多高校开设大数据课程
- 政策优惠
- 企业的决策,数据分析
- 机器学习、深度学习等
linux+hadoop+mr+zookeeper+hive+sqoop+hbase+flume
部署一个单机的hadoop
软件环境:
- ssh
- java
下载地址:
http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar grep input output 'dfs[a-z.]+'
cat output/*
ha