- 博客(14)
- 收藏
- 关注
原创 大数据学习笔记(HDFS常用操作)
1、创建目录命令HDFS有一个默认的工作目录/user/USER,其中USER,其中USER,其中USER是用户的登录用户名。不过目录不会自动建立,需要mkdir建立它命令格式:hadoop fs -mkdir如:在user目录下创建chen目录hadoop fs -mkdir /user/chen注意:Hadoop的mkdir命令会自动创建父目录,类似于带-p的UNIX命令2、上传...
2018-11-13 16:00:41
183
原创 大数据学习笔记(hive简介)
1、Hive是什么Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据映射为一张数据库表。 Hive本身并不提供存储服务,使用HDFS做数据存储。Hive本身并不提供分布式计算功能,而是基于MapReduce计算框架。Hive本身也并不提供资源调度系统,而是使用Hadoop的Yarn集群调度。Hive运行时,元数据存储在关系型数据库里面。2、Hive和Hadoop的关系Hive利...
2018-11-13 15:32:31
517
原创 大数据学习笔记(spark资源调度)
1、绪论上图是Spark程序运行时的一个超级简单的概括。我们运行一个Spark应用程序时,首先第一步肯定是写一个Spark Application应用程序,然后调用资源调度器为Driver申请资源。申请成功后,向master为Application申请资源,申请完毕后,调用资源调度器把任务分发到节点执行。在各个节点进行分布式的并行计算。2、前置知识对于Application来说,资源是Exe...
2018-11-13 15:20:23
351
原创 大数据学习笔记(高可用spark集群搭建)
高可用的Spark集群大概规划 1、spark的主备切换过程需要做哪些工作? ①、zookeeper将备用master的状态更改为alive。 ②、备用master从zookeeper拉取元数据。 ③、备用master向worker节点发送信息,通知已经更换了master。2、master主备切换过程中,能不能提交一个新的Application? 不能,因为...
2018-11-13 14:40:24
179
原创 大数据学习笔记(sark集群搭建)
1、下载spark安装包可到官网自行下载需要的版本:http://spark.apache.org/2、解压、改名把文件放置到CentOs上,使用命令tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz解压下载的压缩包,然后通过命令mv spark-1.6.3-bin-hadoop2.6 spark-1.6.3把刚刚解压出来的文件夹进行改名操作。操作成功后,如下图:...
2018-11-13 14:23:50
200
原创 大数据学习笔记(spark总结)
Spark的运行模式local,standalone,yarn,mesos。yarn还分为yarn-client 和 yarn-master.Spark名词Standalone模式下:Master:集群中含有Master进程的节点。Master是整个集群的控制器,负责整个集群的正常运行。Worker:Worker是工作节点,接收主节点的命令并进行状态汇报。Yarn模式下:Resour...
2018-11-13 13:58:40
319
原创 大数据学习笔记(scala)
1、Scala六大特性java和scala可以无缝混编(都是基于JVM)类型推测(不必指定类型,自动推测类型)支持并发和分布式(Actor)特质:trait(集结了java中抽象类和接口的产物)模式匹配(match case :类似于java中的switch case)高阶函数(参数时函数或者返回值是参数)2、Scala的安装使用本教程介绍在Windows下安装Scala2.10版...
2018-11-13 13:15:57
441
原创 大数据学习笔记(spark日志分析案例)
前提:500w条记录环境下(可以更多,视计算机性能而定),统计每天最热门的top3板块。1、PV和UV我们要统计的是最热门的top3板块,而热门如果只是简单地通过页面浏览量(PV)或者用户浏览量(UV)来决定都显得比较片面,这里我们综合这两者(0.3PV+0.7UV)来获取我们的需求。1.1、PVPageView:浏览量。(有几次浏览就算几次) 1.2、UVUserView:用户量...
2018-11-13 12:31:35
1204
原创 大数据学习笔记(yarn集群搭建)
yarn集群规划在原有的hadoop环境下修改配置文件:mapred-site.xml<property> <name>mapreduce.framework.name</name> <value>yarn</value> <
2018-10-19 14:14:26
169
原创 大数据学习笔记(Map Reduce在集群上的运行架构)
MR1.X运行架构JobTracter核心,主,单点调度所有的作业监控整个集群的资源负载TaskTracter从,自身节点资源管理和JobTracter心跳,汇报资源,获取TaskClient作业为单位最终提交作业到JobTracker在hadoop1.x版本中,基于MapReduce框架写成的Application想要在集群上正常运行,需要有资源调度器和任务调度器的...
2018-10-19 12:26:35
449
原创 大数据学习笔记(MapReduce简介)
什么是MapReduceHadoop MapReduce是一个易于编写应用程序的软件框架,该应用程序以一种可靠的、容错的方式,在大型硬件集群(数千个节点)上并行处理大量数据(多TB数据集)。MapReduce的设计理念MR主要思想就是:分久必合MR的核心思想:“相同”的key为一组,调用yicireduce方法,方法内迭代这一组数据进行计算MR由两个阶段组成:map端redu...
2018-10-18 14:28:10
308
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人