自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gru的博客

路漫漫其修远兮吾将上下而求索

原创 查看Hadoop日志

Hadoop的默认的日志是在$HADOOP_HOME的log目录下,分为.log和.out文件两种 我们只需要查看.log文件 通常.log文件的格式为: hadoop-hadoop-datanode-hadoop002.log hadoop-用户名-进程名-机器名.log 查看日志的步骤:(以查...

2019-07-23 10:49:11 118 0

原创 查看云主机(ECS)的IP

curl ipinfo.io

2019-07-22 18:42:56 239 0

原创 Spark_8 Spark常用算子对比

map与mapPartitions map详解: Return a new RDD by applying a function to all elements of this RDD 对RDD中的每一个元素都执行一个function mapPartitions: Return a new RDD...

2019-07-18 18:16:03 92 0

原创 Spark_7 SparkCore共享变量

共享变量共享变量的概述广播变量广播变量概述及底层分析广播变量的使用累加器累加器概述累加器的使用系统累加器自定义累加器 共享变量的概述 Spark 一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个 task 中,此时每个 ta...

2019-07-14 14:47:08 34 0

原创 Spark_6 Spark on YARN

Spark on YARNYARNSpark on YARN执行流程 YARN Yarn 是一个操作系统级别的统一的资源管理和调度框架 多种计算框架可以通过Yarn共享集群资源,按需分配 ==> 可以提升资源的利用率 Yarn上可以跑: 批处理作业(MR) 交互式INTERACTIVE(Te...

2019-07-13 11:45:30 38 0

原创 Spark_5 RDD依赖关系

RDD依赖关系Lineage窄依赖与宽依赖窄依赖宽依赖宽依赖与窄依赖在应用上的区别DAG任务划分 RDDs 通过操作算子进行转换,转换得到的新 RDD 包含了从其他 RDDs 衍生所必需的信息,RDDs 之间维护着这种血缘关系,也称之为依赖。依赖包括两种,一种是窄依赖,RDDs 之间分区是一一对应...

2019-07-12 20:36:12 40 0

原创 Spark_4 SparkCore缓存和CheckPoint

目录概述cache()和persist()区别 概述 如果在应用程序中多次使用同一个 RDD,可以将该 RDD 缓存起来,该 RDD 只有在第一次计算的时候会根据血缘关系得到分区的数据,在后续其他地方用到该 RDD 的时候,会直接从缓存处取而不用再根据血缘关系计算,这样就加速后期的重用。 cach...

2019-07-12 19:46:12 44 0

转载 Hive_04 使用sql进行增量结合历史数据分析

转载自:https://blog.csdn.net/qq_32641659/article/details/89435726 目录需求Hive SQL的统计分析 需求 已知用户的月度点击次数信息,如下图,第一列为用户名称,第二列为月份,第三列为该月用户点击次数。要求扩充维度,每行增加两列信息,包括...

2019-07-11 15:23:52 66 0

原创 Spark_3 Spark Core运行架构

目录Spark运行架构:名词介绍Spark 运行注意点 Spark运行架构: Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行进程(Executor) ...

2019-07-11 11:12:08 40 0

原创 Spark_0 Spark版本及编译

目录Spark版本Spark编译 Spark版本 学习用2.4.2 大版本 APIs change 次版本 APIs/features 小版本 (核心的东西没有变,只是修复了一些bug)所以小版本要选大的 小版本如果是0,最好不要选,没有被修复过,bug多 Spark编译 由于h...

2019-07-11 10:14:14 38 0

原创 Scala常用知识点总结

目录Scala中的基本数据类型Scala中的方法 我使用的Scala版本:2.11.8 由于平常都是使用Java开发代码,使用Scala只是为了写部分Spark代码以及查看Spark源码的,所以经常忘记,故写一篇小结总结一下: Scala中的基本数据类型 Byte,Char,Short,Int,L...

2019-07-10 09:26:57 38 0

原创 Hive_03 Hive on Hadoop执行流程

常用的SQL不外乎分为两种 select yyy, 聚合函数 from xxx group by yyy; select a.*, b.* from a join b on a.id=b.id; SQL AST QB Operator Tree...

2019-07-09 19:24:32 82 0

原创 Hive_02统计各个城市下最受欢迎的TopN产品

目录概述步骤 概述 需求:统计各个城市所属区域下最受欢迎的Top 3产品 分析:各个城市的TopN产品,是分组求TopN问题,需要使用窗口函数 数据:城市区域对应信息、产品信息表以及用户点击日志 其中 城市区域对应信息、产品信息表 存在MySQL中,而我们需要在Hive中去分析数据,所以需要将My...

2019-07-09 14:59:06 204 0

原创 Java、Scala、Hive中“值匹配”的不同写法

Java的switch case switch(表达式){ case 常量1: 语句1; // break; case 常量2: 语句2; // break; … … case 常量N: 语句N; // break; default: 语句; // break; } ...

2019-07-09 09:15:21 56 0

原创 大数据中的压缩

目录压缩优缺点压缩格式压缩的使用场景 压缩优缺点 优点:节省磁盘空间,提升磁盘利用率,加速磁盘/网络IO; 缺点:解压/压缩是需要CPU的,压缩会使集群cpu利用率高,所以当集群负载高了就不要使用压缩了; 总结来说,需不需要使用压缩是磁盘和CPU的取舍,也反映了大数据层面的任何调优都不是万能的,都...

2019-07-07 16:46:41 100 0

原创 Flume小结

Web/Application Server(Nginx)========>HDFS collect 日志类型:access日志:访问、请求、客户端、agent信息,与业务无关的; ugc日志:业务相关日志; collect方法: 1. 只要这台机器有GATEWAY,通过 hdfs dfs ...

2019-06-27 15:14:26 53 0

原创 Spark SQL外部数据源

Data Source(1.2)概述 源端 ==> MapReduce/Hive/Spark ===> 目标端 业务逻辑处理都是在引擎层面来考虑 load ======> ETL/… ======> save 存在的问题: 1.数据文件格式有很多,普通文本,JSON这...

2019-06-27 15:12:42 56 0

原创 DataFrame

DataFrame val df = spark.read.json(“file:///home/xxxxxxxx.json”) //底层是外部数据源 df.show df.printSchema 定义Schema val structType = StructType(Array(StructF...

2019-06-27 15:11:03 225 0

原创 Spark SQL

Spark SQL: SparkSQL 是用来处理结构化数据的 结构化数据:SQL ORC/Parquet/Json SparkSQL 1.0出来的 1.3毕业的 为什么需要SQL? 对数据进行分析 方便易用 面广 但是原有的数据库无法满足现在的需求 需要云化: RDBMS ===> H...

2019-06-27 15:10:04 80 0

原创 Spark Core练习

Spark如何进行大数据业务处理: 1. 拿到需求之后: 1) 分析 2) 功能拆解:中文描述 <== 详细设计说明书 3) 代码的开发:代码实现 2. 生产上边界值 ==> 使得你的代码具有健壮性 事先考虑一些异常。 避免因为一些异常使整个作业挂掉 WordCount obj...

2019-06-27 15:09:36 152 0

原创 Spark Shell

学会抄代码 很多作业都需要脚本来启动 1)了解Spark-Shell的启动流程 2)抄抄抄 Shell script for starting the Spark Shell REPL //REPL: Read-Evaluate-Print-Loop $uname 检查系统信息 uname...

2019-06-27 14:54:18 39 0

原创 Spark Core优化

Spark Tuning概述: Spark Program的瓶颈: CPU: memory: CPU和memory合称为资源 network bandwidth: Spark哪些地方可以优化: storing RDDs in serialized form to decrease memory ...

2019-06-27 14:51:56 71 0

原创 Spark Shuffle

shuffle是一个re-distributing data 重新分发数据的过程; map tasks to organize the data reduce tasks to aggregate it individual map tasks are kept in memory until t...

2019-06-27 14:49:52 34 0

原创 Java比较器

目录为什么需要比较器 为什么需要比较器 比较器是用来比较对象的大小 正常情况下:对象只能进行比较:== != 而不能使用> 或者 < 但在开发场景中,我们需要对多个对象进行排序,言外之意,就需要比较对象的大小。 如何实现? 实现两个接口中的任意一个:Comparable 或 Comp...

2019-06-21 09:05:06 62 0

原创 Java集合

目录集合概述Collection接口Collection接口常用方法迭代器接口Iterator使用Iterator遍历CollectionCollection 和 Iterator 的remove 方法的区别加强 for 循环用于遍历集合、数组(JDK5.0+)ListList接口常用方法Arra...

2019-06-20 11:20:03 1765 0

原创 String常用类及常用方法

String常用类及常用方法String类String的不可变性:String常用方法 String类 String:字符串,使用一对""表示 1. String类声明为final,不可以被继承 2. String类 实现了Serializable接口,表示字符串是支持序列化的...

2019-06-19 08:55:35 222 0

原创 [Spark总结]Spark Core概述

Spark CoreSpark Core 概述Spark Core相关术语Spark ApplicationDriverCluster ManagerWorker NodeExecutorTaskJob Spark Core 概述   Spark Core实现了 Spark 的基本功能,包含任务调...

2019-05-07 09:02:21 410 0

原创 Spark_2 RDD

Spark Core 以及 RDDSpark运行架构:RDD概述RDD的定义RDD的五大特点:五大特点在源码中的体现 Spark运行架构: Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver...

2019-05-05 18:14:39 52 0

原创 Spark_1 Spark与MapReduce对比

Spark与MapReduce的区别MapReduce的缺陷操作复杂计算效率不适合迭代处理不适合实时流式处理,只能离线处理很多框架都各自为战,浪费了很多资源,开发也慢,运维也不方便Spark的特点计算速度快易于使用通用性Runs Everywhere MapReduce的缺陷 操作复杂 开发起来:...

2019-05-05 17:24:59 339 0

原创 This account is currently not available

报出这种:This account is currently not available错误的话,是因为这个用户不准登录。 uucp:/sbin/nologin 其中/sbin/nologin是缺少解释器,与正常的hadoop:/bin/bash相比,/bin/bash为解释器。 解决: vi /...

2019-04-22 15:01:06 209 0

原创 shell基本操作

ShellShell脚本是什么Shell变量Shell传递参数Shell数组if判断循环for循环while循环分割awksed 替换 Shell脚本是什么 Shell是一个命令行解释器,它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序,用户可以用Shell来启动、挂起、停止...

2019-04-11 20:39:23 85 0

原创 shell脚本的debug模式

shell脚本的debug模式主要是为了发现引发脚本错误的原因以及定位脚本源代码中的错误行。主要使用的有 -x 模式:可以在命令行模式下 输入 sh + -x +脚本名 来启动shell脚本debug模式,也可以进入脚本,在开头第一行的末尾添加上 -x 参数。 ...

2019-04-10 15:08:53 58 0

原创 如何确定block损坏的位置和修复

2019-04-09 22:14:49 208 0

原创 IDEA快捷键及模板

IDEA快捷键自带模板 本人是使用IDEA 2018.3.x,都是手工验证过的: 快捷键 1 执行(run) alt+F10 2 提示补全 ctrl+alt+空格 (Class Name Completion) 3 单行 注释 ctrl + / 4 多行注释 ctrl + s...

2019-04-09 21:47:54 100 0

原创 Hadoop HA部署

Hadoop HA部署创建用户配置hosts文件配置三台机器SSH互相信任关系部署JDK 本人使用三台阿里云主机进行学习,分别用hadoop001,hadoop002,hadoop003表示 创建用户 首先在生产上,一般每一个组件会由不同的用户来部署,所以一上来首先是在三台机器上都创建hadoop...

2019-04-09 21:46:49 54 0

原创 Hadoop HA架构剖析

Hadoop HAHDFS HANameNode与命名空间ZookeeperZKFCJounalNodeHDFS HA工作流程图及说明注意点YARN HA注意点 Hadoop HA架构即 Hadoop 高可用架构,7*24小时不中断服务。实现高可用最关键的是消除单点故障。Hadoop HA 严格来...

2019-04-09 16:04:04 108 0

原创 利用MapReduce实现离线数据清洗

MapReduce虽然已经用的很少,但是它的开发流程还是需要了解的。本次是使用MapReduce完成数据清洗的ETL任务,由于是对日志进行清洗,一条日志信息对应一个map任务,完成任务后并不需要规约操作,所以只需要使用Map,而不需要Reduce任务。 一、日志文件解析 第一步日志文件解析,需要选...

2019-04-02 09:42:38 786 0

原创 关系型数据库架构

数据库架构存储(文件系统)程序实例存储管理缓存机制SQL解析日志管理权限划分异常机制(容灾机制)索引管理锁模块 存储(文件系统) 将数据持久化存入磁盘中 程序实例 用逻辑结构映射出物理结构,并且在程序中提供获取、管理数据的方式以及必要的问题追踪机制。程序实例一般包括以下八个模块: 存储管理 数据处...

2019-03-28 10:23:21 164 0

原创 Hive_01 Hive基础

Hive基础Hive Hive Hive是基于Apache Hadoop的数据仓库基础架构,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,再将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。...

2019-03-25 09:50:05 91 0

原创 MapReduce on Yarn

MapRduce MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。 MapReduce的思想就是“分而治之”: Map(映射):把复杂的任务分解为若干...

2019-03-15 16:35:15 95 0

提示
确定要删除当前文章?
取消 删除