自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 大数据学习笔记(spark)

待续

2018-11-16 13:12:40 158 1

原创 大数据学习笔记(spark的shuffler过程)

2018-11-15 17:16:28 459

原创 大数据学习笔记(HDFS常用操作)

1、创建目录命令HDFS有一个默认的工作目录/user/USER,其中USER,其中USER,其中USER是用户的登录用户名。不过目录不会自动建立,需要mkdir建立它命令格式:hadoop fs -mkdir如:在user目录下创建chen目录hadoop fs -mkdir /user/chen注意:Hadoop的mkdir命令会自动创建父目录,类似于带-p的UNIX命令2、上传...

2018-11-13 16:00:41 183

原创 大数据学习笔记(hive简介)

1、Hive是什么Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据映射为一张数据库表。 Hive本身并不提供存储服务,使用HDFS做数据存储。Hive本身并不提供分布式计算功能,而是基于MapReduce计算框架。Hive本身也并不提供资源调度系统,而是使用Hadoop的Yarn集群调度。Hive运行时,元数据存储在关系型数据库里面。2、Hive和Hadoop的关系Hive利...

2018-11-13 15:32:31 517

原创 大数据学习笔记(spark资源调度)

1、绪论上图是Spark程序运行时的一个超级简单的概括。我们运行一个Spark应用程序时,首先第一步肯定是写一个Spark Application应用程序,然后调用资源调度器为Driver申请资源。申请成功后,向master为Application申请资源,申请完毕后,调用资源调度器把任务分发到节点执行。在各个节点进行分布式的并行计算。2、前置知识对于Application来说,资源是Exe...

2018-11-13 15:20:23 351

原创 大数据学习笔记(高可用spark集群搭建)

高可用的Spark集群大概规划  1、spark的主备切换过程需要做哪些工作?    ①、zookeeper将备用master的状态更改为alive。    ②、备用master从zookeeper拉取元数据。    ③、备用master向worker节点发送信息,通知已经更换了master。2、master主备切换过程中,能不能提交一个新的Application?    不能,因为...

2018-11-13 14:40:24 179

原创 大数据学习笔记(sark集群搭建)

1、下载spark安装包可到官网自行下载需要的版本:http://spark.apache.org/2、解压、改名把文件放置到CentOs上,使用命令tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz解压下载的压缩包,然后通过命令mv spark-1.6.3-bin-hadoop2.6 spark-1.6.3把刚刚解压出来的文件夹进行改名操作。操作成功后,如下图:...

2018-11-13 14:23:50 200

原创 大数据学习笔记(spark总结)

Spark的运行模式local,standalone,yarn,mesos。yarn还分为yarn-client 和 yarn-master.Spark名词Standalone模式下:Master:集群中含有Master进程的节点。Master是整个集群的控制器,负责整个集群的正常运行。Worker:Worker是工作节点,接收主节点的命令并进行状态汇报。Yarn模式下:Resour...

2018-11-13 13:58:40 319

原创 大数据学习笔记(scala)

1、Scala六大特性java和scala可以无缝混编(都是基于JVM)类型推测(不必指定类型,自动推测类型)支持并发和分布式(Actor)特质:trait(集结了java中抽象类和接口的产物)模式匹配(match case :类似于java中的switch case)高阶函数(参数时函数或者返回值是参数)2、Scala的安装使用本教程介绍在Windows下安装Scala2.10版...

2018-11-13 13:15:57 441

原创 大数据学习笔记(spark日志分析案例)

前提:500w条记录环境下(可以更多,视计算机性能而定),统计每天最热门的top3板块。1、PV和UV我们要统计的是最热门的top3板块,而热门如果只是简单地通过页面浏览量(PV)或者用户浏览量(UV)来决定都显得比较片面,这里我们综合这两者(0.3PV+0.7UV)来获取我们的需求。1.1、PVPageView:浏览量。(有几次浏览就算几次)  1.2、UVUserView:用户量...

2018-11-13 12:31:35 1204

原创 大数据学习笔记(HDFS原理)

2018-11-06 14:43:31 188

原创 大数据学习笔记(yarn集群搭建)

yarn集群规划在原有的hadoop环境下修改配置文件:mapred-site.xml<property> <name>mapreduce.framework.name</name> <value>yarn</value> <

2018-10-19 14:14:26 169

原创 大数据学习笔记(Map Reduce在集群上的运行架构)

MR1.X运行架构JobTracter核心,主,单点调度所有的作业监控整个集群的资源负载TaskTracter从,自身节点资源管理和JobTracter心跳,汇报资源,获取TaskClient作业为单位最终提交作业到JobTracker在hadoop1.x版本中,基于MapReduce框架写成的Application想要在集群上正常运行,需要有资源调度器和任务调度器的...

2018-10-19 12:26:35 449

原创 大数据学习笔记(MapReduce简介)

什么是MapReduceHadoop MapReduce是一个易于编写应用程序的软件框架,该应用程序以一种可靠的、容错的方式,在大型硬件集群(数千个节点)上并行处理大量数据(多TB数据集)。MapReduce的设计理念MR主要思想就是:分久必合MR的核心思想:“相同”的key为一组,调用yicireduce方法,方法内迭代这一组数据进行计算MR由两个阶段组成:map端redu...

2018-10-18 14:28:10 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除