大数据
文章平均质量分 69
lenostalhj
这个作者很懒,什么都没留下…
展开
-
初探大数据-开发环境介绍-实战一
使用环境:1、centos(6.4)2、hadoop版本对比及选择 生产较多的CDH版本(CDH5.7.0) 下载地址:课程整套CDH相关的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/ cdh-5.7.0 生产或者测试环境选择对应CDH版本时,一定要采用尾号是一样的版本 为什么很多公司选择Hadoop作为大数据平台的解决方...原创 2018-03-01 16:21:49 · 765 阅读 · 0 评论 -
初探大数据-开发环境安装-实战二
软件存放目录hadoop/hadoop/home/hadoop software: 存放的是安装的软件包 app : 存放的是所有软件的安装目录 data: 存放的是课程中所有使用的测试数据目录 source: 存放的是软件源码目录Hadoop环境搭建1) 下载Hadoop http://archive.cloudera.com/cdh5/cdh/5/ 2.6....原创 2018-03-02 16:24:10 · 204 阅读 · 0 评论 -
初探大数据-HDFS shell常用操作-实战三
1、)操作hadoop fs -mkdir /testhadoop fs -mkdir -p /a/bhadoop fs -mkdir -R /a/b传数据 源 目标hadoop fs -put hdfs.cmd /test/删除数据文件 源 hadoop fs -rm /test/hdfs...原创 2018-03-02 17:13:23 · 210 阅读 · 0 评论 -
初探大数据-YARN架构分析-实战四
YARN架构1 RM(ResourceManager) + N NM(NodeManager)ResourceManager的职责: 一个集群active状态的RM只有一个,负责整个集群的资源管理和调度1)处理客户端的请求(启动/杀死)2)启动/监控ApplicationMaster(一个作业对应一个AM)3)监控NM4)系统的资源分配和调度NodeManager:整个集群中有N个,负责单个节点的...原创 2018-03-02 17:44:13 · 292 阅读 · 0 评论 -
初探大数据-hive架构分析-实战五
官网地址hive.apache.org架构解析:一、Hive底层的执行引擎有:MapReduce、Tez、Spark Hive on MapReduce Hive on Tez Hive on Spark压缩:GZIP、LZO、Snappy、BZIP2..存储:TextFile、SequenceFile、RCFile、ORC、ParquetUDF:自定义函数二、Hive环境搭建1...原创 2018-03-05 10:56:40 · 664 阅读 · 0 评论 -
初探大数据-Spark系列-实战一
MapReduce的局限性:1)代码繁琐;2)只能够支持map和reduce方法;3)执行效率低下;4)不适合迭代多次、交互式、流式的处理;框架多样化:1)批处理(离线):MapReduce、Hive、Pig2)流式处理(实时): Storm、JStorm3)交互式计算:Impala学习、运维成本无形中都提高了很多前置要求:1)Building Spark using Maven requires...原创 2018-03-08 17:11:04 · 243 阅读 · 0 评论