- 博客(33)
- 收藏
- 关注
原创 kafka性能调优
kafka性能调优1、将一个topic拆分为多个partition可以提高吞吐量。不同partition需 要位于不同的磁盘(可以在同一个机器)。如果多个partition位于同一个磁盘,那么意味着有多个进程同时对一个磁盘的多个文 件进行读写,使得操作系统会对磁盘读写进行频繁调度,也就是破坏了磁盘读写的连续性。同一个ConsumerGroup内的Consumer和Partition在同一时间...
2019-06-16 20:34:00 597
原创 YARN 优化
YARN 优化yarn.app.mapreduce.am.resource.mbApplicationMaster的container占用的内存大小,可适当调低mapreduce.map.memory.mb/mapreduce.reduce.memory.mb作业的每个 Map/Reduce任务分配的物理内存量,参数大于最小容器内存(yarn.scheduler.minimum-alloc...
2019-06-16 20:27:17 646
原创 HDFS 优化
一.hdfs-default.xml1>.dfs.namenode.handler.countNameNode 的服务器线程的数量。如果集群节点数在20左右的话,推荐设置为200。2>.dfs.datanode.handler.count数据节点的服务器线程数,默认为10。3>.dfs.datanode.max.transfer.threads (dfs.datanod...
2019-06-16 20:24:38 1918
原创 Spark SQL读取外部数据源
Spark SQL读取外部数据源1、Spark SQL可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json, parquet, avro, csv格式。2、通过外部数据源API读取各种格式的数据,会得到一个DataFrame,可以使用DataFrame的API或者SQL的API进行操作。3、保存操作可以选择使用SaveMode,指定如何保存现...
2019-06-15 23:53:19 501
原创 RDD、DataFrame、DataSet 的对比
TypeRDDDataFrameDataSet定义RDD是分布式的Java对象的集合DataFrame是分布式的Row对象的集合DataSet是分布式Java对象的集合ds = df.as[ElementType]df = Dataset[Row]优点编译时类型安全、面向对象的编程风格引入schema结构信息、减少数据读取、优化执行计划,如filter下推,...
2019-06-15 23:38:34 121
原创 Spark性能优化
概述:Spark的调优有很多方面。要想Spark的性能提高,就得充分利用好系统资源,尤其是内存和CPU。核心思想就是减少数据落盘、提高并行度、减少shuffle、减少网络传输。1. 开发调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化尽量避免使用shuffle类算子。shuffle算子如distinct(实际调用reduceByKey)、reduceB...
2019-06-15 23:30:50 162
原创 JVM内存溢出
java.lang.OutOfMemoryError: PermGen space这个异常比较常见,是说JVM里的Perm内 存区的异常溢出,由于JVM在默认的情况下,Perm默认为64M,而很多程序需要大量的Perm区内 存,尤其使用到像Spring等框架的时候,由于需要使用到动态生成类,而这些类不能被GC自动释放,所以导致OutOfMemoryError: PermGen space异常。...
2019-06-15 23:07:49 118
原创 HDFS架构图和副本放置策略
HDFS架构HDFS主要由3个组件构成,分别是NameNode、SecondaryNameNode和DataNode,HSFS是以master/slave模式运行的,其中NameNode、SecondaryNameNode 运行在master节点,DataNode运行slave节点。NameNode和DataNode架构图NameNode(名称节点)存储:元信息的种类,包含:文件名称...
2019-06-15 18:34:29 656
原创 大数据常用压缩方式对比
1. 压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度坏处由于使用数据时,需要先将数据解压,加重CPU负荷2. 压缩格式压缩比压缩时间可以看出,压缩比越高,压缩时间越长,压缩比:Snappy>LZ4>LZO>GZIP>BZIP2需要安装;linux系统下没有对应的命令d...
2019-06-15 18:30:20 4422 2
原创 HDFS优化之 回收站
HDFS为每个用户创建一个回收站:目录:/user/用户/.Trash/Current, 系统回收站都有一个周期,周期过后hdfs会彻底删除清空,周期内可以恢复。一、HDFS删除文件,无法恢复[hadoop@hadoop001 opt]$ hdfs dfs -rm /123.logDeleted /123.log二、 启用回收站功能[hadoop@hadoop001 hadoop...
2019-06-15 18:22:12 288
转载 Spark中Cache与Persist的巅峰对决
原文网址: https://mp.weixin.qq.com/s/BNNUyXyZNtuxJMlxGDVymA
2019-06-14 09:33:37 125
转载 Spark streaming消费Kafka的正确姿势
Spark streaming消费Kafka的正确姿势原文网址: https://www.cnblogs.com/importbigdata/p/10765558.html
2019-06-13 09:17:58 415
原创 flume 安装部署入门
flume 安装部署环境centos:7.2JDK:1.8Flume:1.9安装下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /home/hadoop/a...
2019-05-27 10:22:39 205
转载 perf + 火焰图分析程序性能
perf + 火焰图分析程序性能原文网址: https://www.cnblogs.com/happyliu/p/6142929.html
2019-05-25 15:45:29 352
原创 Spark SQL 入门 DF、DS
Spark SQL 入门SparkSessionSpark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName(“Spark SQL...
2019-05-23 09:59:37 1063
转载 运行在YARN上的Spark程序的Executor,Cores和Memory的分配
原文网址: https://www.jianshu.com/p/3716ade93b02Hadoop/Yarn/OS 守护进程:当利用一个集群管理器(比如YARN)运行spark程序时,存在一些守护进程运行在后台,比如NameNode,Secondary NameNode,DataNode,JobTracker和TaskTracker。因此,当确定num-executor时,我们需要确保有足够...
2019-05-17 10:03:37 3088
原创 Sprak RDD 持久化
Sprak RDD 持久化Spark中最重要的功能之一是跨操作在内存中持久化(或缓存)数据集。当您持久保存RDD时,每个节点都会存储它在内存中计算的任何分区,并在该数据集(或从中派生的数据集)的其他操作中重用它们。这使得未来的行动更快(通常超过10倍)。您可以使用persist()或cache()方法标记要保留的RDD 。第一次在动作中计算它,它将保留在节点的内存中。Spark的缓存是容错的 ...
2019-05-16 20:32:46 134
原创 elasticsearch 安装部署
elasticsearch linux环境下安装部署下载官网地址:https://www.elastic.co/cn/downloads/elasticsearch创建新用户这里需要注意的是,es 规定 root 用户不能启动 es,所以需要创建一个用户来启动 es#创建用户名为 es 的用户useradd es#设置 es 用户的密码passwd es解压把下载的“ela...
2019-05-16 10:12:19 184
转载 ElasticSearch 原理
ElasticSearch 原理原文网址:https://www.cnblogs.com/dreamroute/p/8484457.html
2019-05-10 10:50:00 121
原创 Spark RDD入门
Spark RDD 入门什么是RDDResilient Distributed Dataset (RDD): 弹性分布式数据集。Spark 中的一个基础抽象概念。它表示一个 不可变的、分区的、可以并行计算的元素的集合。这个类包含了所有RDD 可以进行的基础的操作。例如:map、filter、persist。RDD函数扩展Spark 通过隐式转换的方法提供这些函数。PairRDDFun...
2019-05-07 20:43:00 192
原创 Spark RDD 分组求TopN三种实现
Spark RDD 分组求TopN优化实现思路方法一 :groupBy 实现方法二:repartitionAndSortWithinPartitions 实现实现思路1.分组2.排序3.取出每组的TopN4.合并方法一 :groupBy 实现//方法一 2.5s//分组排序并取topNval topNRdd = reducedRdd.map(x => (x._1._1...
2019-05-07 11:34:42 927
原创 HDFS、YARN HA部署
三台机器安装软件 配置用户创建新用户useradd hadoop设置用户密码passwd hadoop切换到hadoop用户su - hadoop创建目录mkdir appmkdir software上传软件安装包到rz解压软件配置ssh免密登陆生成秘钥ssh-keygen查看秘钥目录cd .ssh把hadoop001的公钥放...
2019-05-03 15:09:09 250
原创 linux 发送邮件设置
获取授权码1.邮箱点击设置-账户2.开启POP3/SMTP 、IMAP/SMTP 并点击生成授权码启动postfixservice postfix start如果postfix start失败[root@hadoop001 ~]# postfix checkpostfix: error while loading shared libraries: libmysqlclie...
2019-05-02 20:11:52 530
转载 Spark性能优化--基础
原文地址:https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
2019-05-01 19:30:07 103
转载 Spark性能优化--高级篇
原文链接 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html
2019-05-01 19:17:09 124
原创 Hiver 入门学习笔记
什么是HiveHive是基于Apache Hadoop的数据仓库基础架构。Hadoop为商用硬件上的数据存储和处理提供了大规模扩展和容错功能。Hive旨在实现轻松的数据汇总,即时查询和分析大量数据。它提供了SQL,使用户可以轻松地进行临时查询,汇总和数据分析。同时,Hive的SQL为用户提供了多个扩展来集成他们自己的功能来进行自定义分析,例如用户定义函数(UDF)。Hive数据组织数据库:...
2019-05-01 11:54:06 336
转载 HDFS NameNode内存详解
原文网址:https://tech.meituan.com/2016/12/09/namenode-memory-detail.html
2019-05-01 09:23:41 150
原创 Linux 常用命令
1. ls — Listls会列举出当前工作目录的内容(文件或文件夹)。这是一个非常有用的查看文件与目录的命令,list之意,它的参数非常多,下面就列出一些我常用的参数吧,如下:-l :列出长数据串,包含文件的属性与权限数据等-a :列出全部的文件,连同隐藏文件(开头为.的文件)一起列出来(常用)-d :仅列出目录本身,而不是列出目录的文件数据-h :将文件容量以较易读的方式(GB,k...
2019-04-30 11:06:22 251
原创 Hadoop HDFS常用文件操作命令
命令格式调用文件系统(FS)Shell命令应用 bin / hadoop fs 的形式。(可以将hadoop的bin目录配置环境变量)所有的的FS shell命令使用URI路径作为参数.URI格式是scheme://权限/路径。对HDFS文件系统,方案是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认...
2019-04-30 09:34:54 2283
原创 YARN HA 架构分析
YARN HA 架构分析规划YARN HAhadoop001:zk rm(zkfc) nmhadoop002:zk rm(zkfc) nmhadoop003:zk nmZKFC: 线程 只作为RM进程的一个线程而非独立的进程存在架构图1 YARN-HARM::1.启动时候会向ZK的/rmstore目录写lock文件,写成功就为active,...
2019-04-29 17:59:32 475
原创 HDFS NameNode HA架构分析
HDFS NameNode HA架构分析为什么要实现HDFS NameNode HA(High Availability)?HDFS NameNode HA(High Availability)是什么?Namenode HA 如何实现,关键技术难题是什么?HDFS NameNode HA架构分析NameNode 的主备切换实现防止脑裂脑裂出现的原因Fencing的实现NameNode 的共享存储实...
2019-04-29 16:56:42 2192 1
转载 Hadoop组件之-HDFS-HA实现细节
Hadoop组件之-HDFS-HA实现细节原文网址: https://www.cnblogs.com/dadadechengzi/p/6715906.html
2019-04-25 14:18:25 149
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人