自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jerry的博客

以笔记的形式,总结“前人”的“果实”。山不在高,水不在深,博客不在点击量,自娱自乐足以。...

原创 Spark性能优化指南

前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。学习Spark的目的就是,主要就是为了让大数据计算作业的执行速度更快、性...

2018-12-22 21:02:24

阅读数 120

评论数 0

原创 Spark 之 Graphx学习笔记

写此博客时,我也是刚接触Spark GraphX,很多东西都一知半解,不过还好对Spark原理有一定的了解。为了,进一步学习:可能你会有很多的手段,比如官网(这个是最直接了当,也是最可靠的方法,但需要你有一定的英语能力),博客等。最近看到了一片博客,写的非常不错,在此以做学习笔记的方式写了这篇博客...

2018-11-19 14:49:50

阅读数 785

评论数 0

原创 Hive之初体验

目录 前言: hive之初体验: 插入数据 Hive内置函数大全: HQL和SQL的差异(此处为借鉴内容) 前言: 此为个人整理以前笔记所用。 hive之初体验: 建表:create table student(id string,name string,sex string,d...

2018-11-11 22:50:33

阅读数 146

评论数 0

原创 hadoop各个Web界面地址

1、HDFS页面:50070 2、YARN的管理界面:8088 3、HistoryServer的管理界面:19888 4、Zookeeper的服务端口号:2181 5、Mysql的服务端口号:3306 6、Hive.server1=10000 7、Kafka的服务端口号:9092 8、azkaba...

2018-09-24 21:45:14

阅读数 3181

评论数 0

原创 Kafka 各种shell 操作

1、启动集群每个节点的进程 nohup kafka-server-start.sh \ /home/hadoop/apps/kafka_2.11-1.1.0/config/server.properties \ 1>~/logs/kafka_std.log \ 2>~/logs/k...

2020-01-07 20:31:26

阅读数 127

评论数 0

原创 kafka 各种操作

1. 各种shell操作 kafka 各种shell操作: 1.每个节点启动 kafka nohup kafka-server-start.sh /home/hadoop/kafka_2.12-2.2.2/config/server.properties >/home/hadoop/...

2020-01-04 20:30:40

阅读数 11

评论数 0

原创 DataX 使用笔记

写在前面 DataX 是阿里巴巴集团内被广泛使用的异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX本身作为离线数据同步框架,采用F...

2019-12-24 10:32:47

阅读数 23

评论数 0

原创 常用正则表达式

来源于菜鸟教程:http://c.runoob.com/front-end/854 1) ?:匹配0个或一个字符 2) * :匹配0个或多个字符 2) ^ :匹配字串开始位置 3) [0-9]+ :匹配多个数字,[0-9]:匹配单个数字,+:表示一个或多个 4) abc$:匹配以abc结尾,$...

2019-10-22 21:03:38

阅读数 35

评论数 0

原创 合并Spark SQL产生的小文件

问题 使用spark sql执行etl时候出现了,最终结果大小只有几百K或几M,但是小文件一个分区有上千的情况。运行spark sql 效率比较低 危害: hdfs有最大文件数限制 浪费磁盘资源(可能存在空文件); hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。 解...

2019-07-27 16:03:52

阅读数 104

评论数 0

原创 备份hive表中的分区

以脚本形式备份hive中数据 脚本(参考示例): #!/bin/bash ############################################################################### #脚本名称: #脚本功能: 备份分区...

2019-07-27 16:02:47

阅读数 126

评论数 0

原创 查看YARN任务日志的几种方式

通过history server 通过history server,直接在web ui上查看(如果任务异常退出,可能会看不到) All Applications application application log 通过yarn命令(用户要和提交任务的用户一致) yarn...

2019-04-22 17:08:55

阅读数 1237

评论数 0

原创 大数据里的存储格式

hive里的存储格式 hive里默认存储是textfile hive (default)> set hive.default.fileformat; hive.default.fileformat=TextFile 数据表存储方式如下指定 hive (default)&g...

2019-04-06 16:30:38

阅读数 598

评论数 0

原创 Hive文件存储格式(TEXTFILE 、ORC、PARQUET三者的对比)

综述: HIve的文件存储格式有四种:TEXTFILE、SEQUENCEFILE、ORC、PARQUET,前面两种是行式存储,后面两种是列式存储;所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式,如果指定了A方式,那么在向表中插入数据的时候,将会使用该方式向HDFS...

2019-04-06 16:30:18

阅读数 1865

评论数 2

转载 Hive开窗函数总结

在 Hive 工作使用过程中,可能使用导开窗函数。这里做一下总结: 开窗函数:普通的聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。因此,普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以...

2019-04-06 15:11:20

阅读数 411

评论数 0

原创 MapReduce 的 shuffle 机制

概述 MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle Shuffle: 数据混洗 ——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并排序) 具体来说:就是将 MapT...

2019-03-17 16:35:00

阅读数 43

评论数 0

原创 MapReduce 调优

资源相关参数 以下参数是在用户自己的 mr 应用程序中配置就可以生效: mapreduce.map.memory.mb: 一个 Map Task 可使用的资源上限(单位:MB),默认为 1024。如果 Map Task 实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduc...

2019-03-16 17:54:43

阅读数 25

评论数 0

原创 Hadoop 之 yarn 笔记整理

YARN 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程框...

2019-03-14 18:49:43

阅读数 142

评论数 0

原创 HADOOP与HDFS数据压缩格式

目录 cloudera 数据压缩准则 一般准则 Hadoop 压缩实现分析 压缩简介 压缩格式 性能对比 四中常用压缩格式在 Hadoop 中的应用 gzip压缩 lzo压缩 snappy压缩 bzip2压缩 四种压缩格式的特征的比较 cloudera 数据压缩准则 一...

2019-03-14 17:25:07

阅读数 120

评论数 0

原创 spark 零碎知识点

aggregateMessages 寻找距离最远的顶点(通过递归的方式) 大多数的算法都是包含多次迭代,aggregateMessages 可用于这类算法,其仅需要基于邻边和顶点发送过来消息来不断更新每个顶点的状态。为了实现此过程,我们实现了在图中寻找与顶点距离最远的顶点的算法。 假设图不存在...

2019-03-10 17:25:50

阅读数 51

评论数 0

原创 Hadoop 之 MapReduce 基础入门

目录 MapReduce 入门 什么是 MapReduce 为什么需要 MapReduce MapReduce 程序运行演示 MapReduce 示例程序编写及编码规范 MapReduce 运行方式及 Debug MapReduce 程序的核心运行机制 概述 MapReduce ...

2019-03-09 17:48:11

阅读数 105

评论数 0

原创 HDFS 集群的机架感知

目录 背景 配置机架感知 修改配置文件 core-site.xml 验证机架感知 补充 增加 datanode 节点 节点间距离计算 背景 Hadoop 的设计目的:解决海量大文件的处理问题,主要指大数据的存储和计算问题,其中,HDFS 解决数据的存储问题;MapReduce 解...

2019-03-09 17:12:15

阅读数 42

评论数 0

原创 HDFS 原理剖析

目录 HDFS 工作机制 概述 HDFS 写数据流程 概述 详细步骤图 详细步骤文字说明 HDFS 读数据流程 概述 详细步骤图 详细文字说明 NameNode 工作机制 NameNode 职责 NameNode 元数据管理 NameNode 元数据存储机制 元数据的...

2019-03-09 16:58:34

阅读数 40

评论数 0

原创 HBase学习之路三(原理部分)

目录 系统架构 物理存储 整体物理结构 StoreFile 和 HFile 结构 MemStore 和 StoreFile HLog(WAL) 寻址机制 读写过程 读请求过程 写请求过程 RegionServer工作机制 Master工作机制 系统架构 Client...

2019-03-09 10:50:08

阅读数 50

评论数 0

原创 HBase 学习之路二(高级编程)

目录 Hbase结合MapReduce HBaseToHDFS HDFSToHBase HBase和MySQL进行数据交互 mysql 数据导入到 hbase hbase 数据导入到 mysql HBase整合Hive 原理 准备 HBase 表和数据 Hive 端操作 验证...

2019-03-09 10:28:04

阅读数 56

评论数 0

原创 HBase 学习之路一(基础知识)

目录 HBase数据库介绍 简介 表结构逻辑视图 RowKey 列族(Column Family) 时间戳 Cell HBase 集群结构 HBase 集群搭建 安装步骤 HBase 命令行演示 HBase java API代码 HBaseAdmin HBaseConf...

2019-03-03 21:54:03

阅读数 113

评论数 0

原创 Hive 高级应用

目录 Hive shell操作 hive 命令行 hive参数配置方式 数据倾斜 Hive执行过程 hive执行过程概述 join Group By Distinct Hive优化策略 Hadoop框架计算特性 优化常用手段 排序选择 怎样做笛卡尔积 怎样写 in/e...

2019-02-06 16:24:38

阅读数 79

评论数 0

原创 Hive 高级操作

目录 Hive 数据类型 原子数据类型 复杂数据类型 示例 array map struct uniontype 视图 Hive 函数 hive内置函数 hive自定义函数UDF UDF 示例 Json 数据解析 UDF 开发 Transform 实现 Hive 特...

2019-02-06 16:19:25

阅读数 80

评论数 0

原创 Scala 语法学习之路三(scala 高级特性)

目录 高阶函数和闭包 定义函数 匿名函数 函数的各种写法 高阶函数 作为返回值的函数 作为方法参数的函数 闭包 Scala 柯里化 Curry Scala 隐式转换和隐式参数 Scala 隐式转换探讨 隐式转换的发生时机 时机一:当调用一个不存在的方法 时机二:当参数类...

2019-02-05 19:56:23

阅读数 144

评论数 0

原创 Scala 语法学习之路二(Scala 面向对象)

目录 类 定义类 定义构造器 对象 单例对象 伴生对象 Apply方法 应用程序对象App 抽象类 继承 扩展类 重写方法(override和super) 类型检查和转换 超类的构造 特质(Trait) 特质的定义 Trait的使用 Trait 使用概述 将特...

2019-02-02 21:02:18

阅读数 129

评论数 0

原创 Scala 语法学习之路一(基础语法)

目录 概述 什么是scala 为什么要学scala Scala 编译器安装 安装 JDK Windows 平台安装 Scala Linux 平台安装 Scala Scala 集成开发环境 Intellgence IDEA 安装 基础语法 Hello Scala 变量定义 数...

2019-02-02 15:21:53

阅读数 148

评论数 0

原创 Spark core中cache、persist及缓存级别详解

前言 Spark的开发调优有一个原则,即对多次使用的RDD进行持久化。如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。 cache()方法表示:使用非序列化的方式将RDD的数据全部尝试持久化到内存中,cache()只是一个transformtion,是...

2019-01-31 15:14:54

阅读数 167

评论数 0

原创 不生病的10条铁律

目录 不生病的10条铁律: 定律一:不生气,就不生病 定律二:不熬夜 定律三:不乱吃 定律四:不能不动 定律五:不较真 定律六:不过度伤心 定律七:不压抑自己 定律八:不透支自己 定律九:不要太操心 定律十:不能太孤独 喜欢养生的人知道,想要不生病,需要均衡饮食、坚持运动、...

2019-01-29 21:50:24

阅读数 345

评论数 0

原创 yarn之设置capacity任务调度器

目录   前言 capacity 队列的属性 资源分配属性(property) 现有的或者新加的应用程序限制属性(property) 队列的管理和权限控制属性(property) 队列和用户、用户组的mapping属性(property) 其他属性(property) 配置 ...

2019-01-28 20:57:15

阅读数 889

评论数 0

原创 Spaark 中RDD,DataFrame和DataSet对比

目录 前言 区别 RDD DataFrame DateSet ***new DateSet 静态类型和运行时类型安全 结构化和半结构化数据的高级抽象和自定义视图 API结构的易用性 性能和优化 我们应该什么时候使用DataFrame或DataSet呢? 如何选择RDD还是D...

2019-01-25 21:08:25

阅读数 130

评论数 0

原创 yarn——资源调度

目录 前言 调度器的选择 Capacity Scheduler (计算能力调度器 ) Capacity Scheduler 容量调度器介绍 Capacity Scheduler 容量调度器配置 Capacity Scheduler 队列的设置 Fair Scheduler(公平调度器...

2019-01-24 22:18:27

阅读数 82

评论数 0

原创 GlobalTempView与LocalTempView区别

目录 前言 区别 前言 在用 DataFrame 创建表是有四种方法可用(这里 rdd 代表一个RDD数据集): rdd.toDF().createOrReplaceTempView("tablename1") rdd.toDF().createGlobalTemp...

2019-01-23 21:34:00

阅读数 193

评论数 0

原创 Hadoop 学习之路

目录 简介 hadoop 在大数据和云计算当中的位置和关系 Hadoop 技术应用架构概览 Hadoop 应用于数据服务基础平台建设 Hadoop 用于用户画像 hadoop 生态圈以及各组成部分的简介 分布式系统概述 离线分析系统概述 简介 Hadoop 是 Apache 旗...

2019-01-21 21:47:25

阅读数 58

评论数 0

原创 Mysql 之 COALESCE() 函数

简述 主流数据库系统都支持COALESCE()函数,这个函数主要用来进行空值处理,其参数格式如下:  COALESCE ( expression,value1,value2……,valuen)  COALESCE()函数的第一个参数expression为待检测的表达式,而其后的参数个数不定,函数...

2019-01-17 17:43:45

阅读数 331

评论数 0

原创 Scala 之日期和时间

目录 前言 SimpleDateFormat FastDateFormat Joda-Time 代码实例 其他操作 前言 对时间和日期处理的主要方法:SimpleDateFormat,FastDateFormat和Joda-Time。 SimpleDateFormat Simp...

2019-01-16 19:03:42

阅读数 2112

评论数 0

原创 Spark 之 RDD 学习笔记

目录 简介 RDD 创建RDD 操作RDD RDD支持两种操作 Transformation Action 简介 RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操...

2019-01-12 22:54:12

阅读数 77

评论数 0

提示
确定要删除当前文章?
取消 删除