smy12138-CSDN博客

原创大数据学习笔记(HDFS常用操作)

1、创建目录命令HDFS有一个默认的工作目录/user/USER，其中USER，其中USER，其中USER是用户的登录用户名。不过目录不会自动建立，需要mkdir建立它命令格式：hadoop fs -mkdir如：在user目录下创建chen目录hadoop fs -mkdir /user/chen注意：Hadoop的mkdir命令会自动创建父目录，类似于带-p的ＵＮＩＸ命令２、上传...

2018-11-13 16:00:41 183

1、Hive是什么Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据映射为一张数据库表。 Hive本身并不提供存储服务,使用HDFS做数据存储。Hive本身并不提供分布式计算功能，而是基于MapReduce计算框架。Hive本身也并不提供资源调度系统，而是使用Hadoop的Yarn集群调度。Hive运行时，元数据存储在关系型数据库里面。2、Hive和Hadoop的关系Hive利...

2018-11-13 15:32:31 517

原创大数据学习笔记(spark资源调度)

1、绪论上图是Spark程序运行时的一个超级简单的概括。我们运行一个Spark应用程序时，首先第一步肯定是写一个Spark Application应用程序，然后调用资源调度器为Driver申请资源。申请成功后，向master为Application申请资源，申请完毕后，调用资源调度器把任务分发到节点执行。在各个节点进行分布式的并行计算。2、前置知识对于Application来说，资源是Exe...

2018-11-13 15:20:23 351

原创大数据学习笔记(高可用spark集群搭建)

高可用的Spark集群大概规划 1、spark的主备切换过程需要做哪些工作？ ①、zookeeper将备用master的状态更改为alive。 ②、备用master从zookeeper拉取元数据。 ③、备用master向worker节点发送信息，通知已经更换了master。2、master主备切换过程中，能不能提交一个新的Application？不能，因为...

2018-11-13 14:40:24 179

原创大数据学习笔记(sark集群搭建)

1、下载spark安装包可到官网自行下载需要的版本:http://spark.apache.org/2、解压、改名把文件放置到CentOs上，使用命令tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz解压下载的压缩包，然后通过命令mv spark-1.6.3-bin-hadoop2.6 spark-1.6.3把刚刚解压出来的文件夹进行改名操作。操作成功后，如下图：...

2018-11-13 14:23:50 200

原创大数据学习笔记(spark总结)

Spark的运行模式local，standalone，yarn，mesos。yarn还分为yarn-client 和 yarn-master.Spark名词Standalone模式下：Master：集群中含有Master进程的节点。Master是整个集群的控制器，负责整个集群的正常运行。Worker：Worker是工作节点，接收主节点的命令并进行状态汇报。Yarn模式下：Resour...

2018-11-13 13:58:40 319

原创大数据学习笔记(scala)

1、Scala六大特性java和scala可以无缝混编（都是基于JVM）类型推测（不必指定类型，自动推测类型）支持并发和分布式（Actor）特质：trait（集结了java中抽象类和接口的产物）模式匹配（match case ：类似于java中的switch case）高阶函数（参数时函数或者返回值是参数）2、Scala的安装使用本教程介绍在Windows下安装Scala2.10版...

2018-11-13 13:15:57 441

原创大数据学习笔记(spark日志分析案例)

前提：500w条记录环境下（可以更多，视计算机性能而定），统计每天最热门的top3板块。1、PV和UV我们要统计的是最热门的top3板块，而热门如果只是简单地通过页面浏览量（PV）或者用户浏览量（UV）来决定都显得比较片面，这里我们综合这两者（0.3PV+0.7UV）来获取我们的需求。1.1、PVPageView：浏览量。（有几次浏览就算几次） 1.2、UVUserView：用户量...

2018-11-13 12:31:35 1204

原创大数据学习笔记(HDFS原理)

2018-11-06 14:43:31 188

原创大数据学习笔记（yarn集群搭建）

yarn集群规划在原有的hadoop环境下修改配置文件：mapred-site.xml&lt;property&gt; &lt;name&gt;mapreduce.framework.name&lt;/name&gt; &lt;value&gt;yarn&lt;/value&gt; &lt;

2018-10-19 14:14:26 169

原创大数据学习笔记（Map Reduce在集群上的运行架构）

MR1.X运行架构JobTracter核心，主，单点调度所有的作业监控整个集群的资源负载TaskTracter从，自身节点资源管理和JobTracter心跳，汇报资源，获取TaskClient作业为单位最终提交作业到JobTracker在hadoop1.x版本中，基于MapReduce框架写成的Application想要在集群上正常运行，需要有资源调度器和任务调度器的...

2018-10-19 12:26:35 449

原创大数据学习笔记(MapReduce简介)

什么是MapReduceHadoop MapReduce是一个易于编写应用程序的软件框架，该应用程序以一种可靠的、容错的方式，在大型硬件集群(数千个节点)上并行处理大量数据(多TB数据集)。MapReduce的设计理念MR主要思想就是：分久必合MR的核心思想：“相同”的key为一组，调用yicireduce方法，方法内迭代这一组数据进行计算MR由两个阶段组成：map端redu...

2018-10-18 14:28:10 308

smy12138的博客

原创大数据学习笔记(spark)

原创大数据学习笔记(spark的shuffler过程)