自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 kafka性能调优

kafka性能调优1、将一个topic拆分为多个partition可以提高吞吐量。不同partition需 要位于不同的磁盘(可以在同一个机器)。如果多个partition位于同一个磁盘,那么意味着有多个进程同时对一个磁盘的多个文 件进行读写,使得操作系统会对磁盘读写进行频繁调度,也就是破坏了磁盘读写的连续性。同一个ConsumerGroup内的Consumer和Partition在同一时间...

2019-06-16 20:34:00 587

原创 YARN 优化

YARN 优化yarn.app.mapreduce.am.resource.mbApplicationMaster的container占用的内存大小,可适当调低mapreduce.map.memory.mb/mapreduce.reduce.memory.mb作业的每个 Map/Reduce任务分配的物理内存量,参数大于最小容器内存(yarn.scheduler.minimum-alloc...

2019-06-16 20:27:17 616

原创 HDFS 优化

一.hdfs-default.xml1>.dfs.namenode.handler.countNameNode 的服务器线程的数量。如果集群节点数在20左右的话,推荐设置为200。2>.dfs.datanode.handler.count数据节点的服务器线程数,默认为10。3>.dfs.datanode.max.transfer.threads (dfs.datanod...

2019-06-16 20:24:38 1851

原创 Spark SQL读取外部数据源

Spark SQL读取外部数据源1、Spark SQL可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json, parquet, avro, csv格式。2、通过外部数据源API读取各种格式的数据,会得到一个DataFrame,可以使用DataFrame的API或者SQL的API进行操作。3、保存操作可以选择使用SaveMode,指定如何保存现...

2019-06-15 23:53:19 489

原创 RDD、DataFrame、DataSet 的对比

TypeRDDDataFrameDataSet定义RDD是分布式的Java对象的集合DataFrame是分布式的Row对象的集合DataSet是分布式Java对象的集合ds = df.as[ElementType]df = Dataset[Row]优点编译时类型安全、面向对象的编程风格引入schema结构信息、减少数据读取、优化执行计划,如filter下推,...

2019-06-15 23:38:34 106

原创 Spark性能优化

概述:Spark的调优有很多方面。要想Spark的性能提高,就得充分利用好系统资源,尤其是内存和CPU。核心思想就是减少数据落盘、提高并行度、减少shuffle、减少网络传输。1. 开发调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化尽量避免使用shuffle类算子。shuffle算子如distinct(实际调用reduceByKey)、reduceB...

2019-06-15 23:30:50 150

原创 JVM内存溢出

java.lang.OutOfMemoryError: PermGen space这个异常比较常见,是说JVM里的Perm内 存区的异常溢出,由于JVM在默认的情况下,Perm默认为64M,而很多程序需要大量的Perm区内 存,尤其使用到像Spring等框架的时候,由于需要使用到动态生成类,而这些类不能被GC自动释放,所以导致OutOfMemoryError: PermGen space异常。...

2019-06-15 23:07:49 109

原创 HDFS架构图和副本放置策略

HDFS架构HDFS主要由3个组件构成,分别是NameNode、SecondaryNameNode和DataNode,HSFS是以master/slave模式运行的,其中NameNode、SecondaryNameNode 运行在master节点,DataNode运行slave节点。NameNode和DataNode架构图NameNode(名称节点)存储:元信息的种类,包含:文件名称...

2019-06-15 18:34:29 648

原创 大数据常用压缩方式对比

1. 压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度坏处由于使用数据时,需要先将数据解压,加重CPU负荷2. 压缩格式压缩比压缩时间可以看出,压缩比越高,压缩时间越长,压缩比:Snappy>LZ4>LZO>GZIP>BZIP2需要安装;linux系统下没有对应的命令d...

2019-06-15 18:30:20 4387 2

原创 HDFS优化之 回收站

HDFS为每个用户创建一个回收站:目录:/user/用户/.Trash/Current, 系统回收站都有一个周期,周期过后hdfs会彻底删除清空,周期内可以恢复。一、HDFS删除文件,无法恢复[hadoop@hadoop001 opt]$ hdfs dfs -rm /123.logDeleted /123.log二、 启用回收站功能[hadoop@hadoop001 hadoop...

2019-06-15 18:22:12 275

转载 Spark中Cache与Persist的巅峰对决

原文网址: https://mp.weixin.qq.com/s/BNNUyXyZNtuxJMlxGDVymA

2019-06-14 09:33:37 115

转载 Spark streaming消费Kafka的正确姿势

Spark streaming消费Kafka的正确姿势原文网址: https://www.cnblogs.com/importbigdata/p/10765558.html

2019-06-13 09:17:58 401

原创 flume 安装部署入门

flume 安装部署环境centos:7.2JDK:1.8Flume:1.9安装下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /home/hadoop/a...

2019-05-27 10:22:39 195

转载 perf + 火焰图分析程序性能

perf + 火焰图分析程序性能原文网址: https://www.cnblogs.com/happyliu/p/6142929.html

2019-05-25 15:45:29 345

原创 Spark SQL 入门 DF、DS

Spark SQL 入门SparkSessionSpark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName(“Spark SQL...

2019-05-23 09:59:37 1037

转载 运行在YARN上的Spark程序的Executor,Cores和Memory的分配

原文网址: https://www.jianshu.com/p/3716ade93b02Hadoop/Yarn/OS 守护进程:当利用一个集群管理器(比如YARN)运行spark程序时,存在一些守护进程运行在后台,比如NameNode,Secondary NameNode,DataNode,JobTracker和TaskTracker。因此,当确定num-executor时,我们需要确保有足够...

2019-05-17 10:03:37 3066

原创 Sprak RDD 持久化

Sprak RDD 持久化Spark中最重要的功能之一是跨操作在内存中持久化(或缓存)数据集。当您持久保存RDD时,每个节点都会存储它在内存中计算的任何分区,并在该数据集(或从中派生的数据集)的其他操作中重用它们。这使得未来的行动更快(通常超过10倍)。您可以使用persist()或cache()方法标记要保留的RDD 。第一次在动作中计算它,它将保留在节点的内存中。Spark的缓存是容错的 ...

2019-05-16 20:32:46 119

原创 elasticsearch 安装部署

elasticsearch linux环境下安装部署下载官网地址:https://www.elastic.co/cn/downloads/elasticsearch创建新用户这里需要注意的是,es 规定 root 用户不能启动 es,所以需要创建一个用户来启动 es#创建用户名为 es 的用户useradd es#设置 es 用户的密码passwd es解压把下载的“ela...

2019-05-16 10:12:19 169

转载 ElasticSearch 原理

ElasticSearch 原理原文网址:https://www.cnblogs.com/dreamroute/p/8484457.html

2019-05-10 10:50:00 111

转载 KUDU介绍

KUDU介绍原文网址:https://www.jianshu.com/p/93c602b637a4

2019-05-09 09:36:01 626

原创 Spark RDD入门

Spark RDD 入门什么是RDDResilient Distributed Dataset (RDD): 弹性分布式数据集。Spark 中的一个基础抽象概念。它表示一个 不可变的、分区的、可以并行计算的元素的集合。这个类包含了所有RDD 可以进行的基础的操作。例如:map、filter、persist。RDD函数扩展Spark 通过隐式转换的方法提供这些函数。PairRDDFun...

2019-05-07 20:43:00 181

原创 Spark RDD 分组求TopN三种实现

Spark RDD 分组求TopN优化实现思路方法一 :groupBy 实现方法二:repartitionAndSortWithinPartitions 实现实现思路1.分组2.排序3.取出每组的TopN4.合并方法一 :groupBy 实现//方法一 2.5s//分组排序并取topNval topNRdd = reducedRdd.map(x => (x._1._1...

2019-05-07 11:34:42 909

原创 HDFS、YARN HA部署

三台机器安装软件 配置用户创建新用户useradd hadoop设置用户密码passwd hadoop切换到hadoop用户su - hadoop创建目录mkdir appmkdir software上传软件安装包到rz解压软件配置ssh免密登陆生成秘钥ssh-keygen查看秘钥目录cd .ssh把hadoop001的公钥放...

2019-05-03 15:09:09 242

原创 linux 发送邮件设置

获取授权码1.邮箱点击设置-账户2.开启POP3/SMTP 、IMAP/SMTP 并点击生成授权码启动postfixservice postfix start如果postfix start失败[root@hadoop001 ~]# postfix checkpostfix: error while loading shared libraries: libmysqlclie...

2019-05-02 20:11:52 509

转载 Spark性能优化--基础

原文地址:https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

2019-05-01 19:30:07 94

转载 Spark性能优化--高级篇

原文链接 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

2019-05-01 19:17:09 115

原创 Hiver 入门学习笔记

什么是HiveHive是基于Apache Hadoop的数据仓库基础架构。Hadoop为商用硬件上的数据存储和处理提供了大规模扩展和容错功能。Hive旨在实现轻松的数据汇总,即时查询和分析大量数据。它提供了SQL,使用户可以轻松地进行临时查询,汇总和数据分析。同时,Hive的SQL为用户提供了多个扩展来集成他们自己的功能来进行自定义分析,例如用户定义函数(UDF)。Hive数据组织数据库:...

2019-05-01 11:54:06 323

转载 HDFS NameNode内存详解

原文网址:https://tech.meituan.com/2016/12/09/namenode-memory-detail.html

2019-05-01 09:23:41 134

原创 Linux 常用命令

1. ls — Listls会列举出当前工作目录的内容(文件或文件夹)。这是一个非常有用的查看文件与目录的命令,list之意,它的参数非常多,下面就列出一些我常用的参数吧,如下:-l :列出长数据串,包含文件的属性与权限数据等-a :列出全部的文件,连同隐藏文件(开头为.的文件)一起列出来(常用)-d :仅列出目录本身,而不是列出目录的文件数据-h :将文件容量以较易读的方式(GB,k...

2019-04-30 11:06:22 239

原创 Hadoop HDFS常用文件操作命令

命令格式调用文件系统(FS)Shell命令应用 bin / hadoop fs 的形式。(可以将hadoop的bin目录配置环境变量)所有的的FS shell命令使用URI路径作为参数.URI格式是scheme://权限/路径。对HDFS文件系统,方案是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认...

2019-04-30 09:34:54 2261

原创 YARN HA 架构分析

YARN HA 架构分析规划YARN HAhadoop001:zk rm(zkfc) nmhadoop002:zk rm(zkfc) nmhadoop003:zk nmZKFC: 线程 只作为RM进程的一个线程而非独立的进程存在架构图1 YARN-HARM::1.启动时候会向ZK的/rmstore目录写lock文件,写成功就为active,...

2019-04-29 17:59:32 466

原创 HDFS NameNode HA架构分析

HDFS NameNode HA架构分析为什么要实现HDFS NameNode HA(High Availability)?HDFS NameNode HA(High Availability)是什么?Namenode HA 如何实现,关键技术难题是什么?HDFS NameNode HA架构分析NameNode 的主备切换实现防止脑裂脑裂出现的原因Fencing的实现NameNode 的共享存储实...

2019-04-29 16:56:42 2180 1

转载 Hadoop组件之-HDFS-HA实现细节

Hadoop组件之-HDFS-HA实现细节原文网址: https://www.cnblogs.com/dadadechengzi/p/6715906.html

2019-04-25 14:18:25 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除