大数据定义
现有技术无法处理的数据。
主要特点
- 体量大
- 要求处理速度快
- 数据种类多
发展历程
数据–>存储、计算数据–>分布式计算
大数据处理技术的发展历程
- 谷歌提供了理论支撑:GFS、MapReduce和BigTable。
- hadoop:大数据处理平台,将分布式计算打包,降低了分布式编程的难度。
数据仓库
Hive
数据仓库中的一个非常重要的技术,是数据仓库与hadoop紧密结合的标志。
学习硬件需求
服务器集群(vmware,购买云服务器集群,购买服务器)
技术软件需求
- 存储 :HDFS
- 计算:Mapreduce
hadoop基础
- 创建目录
hadoop dfs -mkdir /home - 上传文件或目录到hdfs
hadoop dfs -put hello /
hadoop dfs -put hellodir/ / - 查看目录
hadoop dfs -ls / - 创建一个空文件
hadoop dfs -touchz /wahaha - 删除一个文件
hadoop dfs -rm /wahaha - 删除一个目录
hadoop