明天你好lk-CSDN博客

原创 kafka性能调优

kafka性能调优1、将一个topic拆分为多个partition可以提高吞吐量。不同partition需要位于不同的磁盘（可以在同一个机器）。如果多个partition位于同一个磁盘，那么意味着有多个进程同时对一个磁盘的多个文件进行读写，使得操作系统会对磁盘读写进行频繁调度，也就是破坏了磁盘读写的连续性。同一个ConsumerGroup内的Consumer和Partition在同一时间...

2019-06-16 20:34:00 597

原创 YARN 优化

YARN 优化yarn.app.mapreduce.am.resource.mbApplicationMaster的container占用的内存大小，可适当调低mapreduce.map.memory.mb/mapreduce.reduce.memory.mb作业的每个 Map/Reduce任务分配的物理内存量，参数大于最小容器内存（yarn.scheduler.minimum-alloc...

2019-06-16 20:27:17 646

原创 HDFS 优化

一.hdfs-default.xml1>.dfs.namenode.handler.countNameNode 的服务器线程的数量。如果集群节点数在20左右的话，推荐设置为200。2>.dfs.datanode.handler.count数据节点的服务器线程数，默认为10。3>.dfs.datanode.max.transfer.threads (dfs.datanod...

2019-06-16 20:24:38 1918

Spark SQL读取外部数据源1、Spark SQL可以加载任何地方的数据，例如mysql，hive，hdfs，hbase等，而且支持很多种格式如json, parquet, avro, csv格式。2、通过外部数据源API读取各种格式的数据，会得到一个DataFrame，可以使用DataFrame的API或者SQL的API进行操作。3、保存操作可以选择使用SaveMode，指定如何保存现...

2019-06-15 23:53:19 501

原创 RDD、DataFrame、DataSet 的对比

TypeRDDDataFrameDataSet定义RDD是分布式的Java对象的集合DataFrame是分布式的Row对象的集合DataSet是分布式Java对象的集合ds = df.as[ElementType]df = Dataset[Row]优点编译时类型安全、面向对象的编程风格引入schema结构信息、减少数据读取、优化执行计划，如filter下推，...

2019-06-15 23:38:34 121

原创 Spark性能优化

概述：Spark的调优有很多方面。要想Spark的性能提高，就得充分利用好系统资源，尤其是内存和CPU。核心思想就是减少数据落盘、提高并行度、减少shuffle、减少网络传输。1. 开发调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化尽量避免使用shuffle类算子。shuffle算子如distinct（实际调用reduceByKey）、reduceB...

2019-06-15 23:30:50 162

原创 JVM内存溢出

java.lang.OutOfMemoryError: PermGen space这个异常比较常见，是说ＪＶＭ里的Perm内存区的异常溢出，由于JVM在默认的情况下，Perm默认为64M，而很多程序需要大量的Perm区内存，尤其使用到像Spring等框架的时候，由于需要使用到动态生成类，而这些类不能被GC自动释放，所以导致OutOfMemoryError: PermGen space异常。...

2019-06-15 23:07:49 118

原创 HDFS架构图和副本放置策略

HDFS架构HDFS主要由3个组件构成，分别是NameNode、SecondaryNameNode和DataNode，HSFS是以master/slave模式运行的，其中NameNode、SecondaryNameNode 运行在master节点，DataNode运行slave节点。NameNode和DataNode架构图NameNode(名称节点)存储：元信息的种类，包含:文件名称...

2019-06-15 18:34:29 656

原创大数据常用压缩方式对比

1. 压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度坏处由于使用数据时，需要先将数据解压，加重CPU负荷2. 压缩格式压缩比压缩时间可以看出，压缩比越高，压缩时间越长，压缩比：Snappy>LZ4>LZO>GZIP>BZIP2需要安装；linux系统下没有对应的命令d...

2019-06-15 18:30:20 4422 2

原创 HDFS优化之回收站

HDFS为每个用户创建一个回收站:目录:/user/用户/.Trash/Current, 系统回收站都有一个周期,周期过后hdfs会彻底删除清空,周期内可以恢复。一、HDFS删除文件,无法恢复[hadoop@hadoop001 opt]$ hdfs dfs -rm /123.logDeleted /123.log二、启用回收站功能[hadoop@hadoop001 hadoop...

2019-06-15 18:22:12 288

转载 Spark中Cache与Persist的巅峰对决

原文网址： https://mp.weixin.qq.com/s/BNNUyXyZNtuxJMlxGDVymA

2019-06-14 09:33:37 125

转载 Spark streaming消费Kafka的正确姿势

Spark streaming消费Kafka的正确姿势原文网址： https://www.cnblogs.com/importbigdata/p/10765558.html

2019-06-13 09:17:58 415

原创 flume 安装部署入门

flume 安装部署环境centos：7.2JDK:1.8Flume:1.9安装下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /home/hadoop/a...

2019-05-27 10:22:39 205

转载 perf + 火焰图分析程序性能

perf + 火焰图分析程序性能原文网址： https://www.cnblogs.com/happyliu/p/6142929.html

2019-05-25 15:45:29 352

原创 Spark SQL 入门 DF、DS

Spark SQL 入门SparkSessionSpark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession，只需使用SparkSession.builder()：import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName(“Spark SQL...

2019-05-23 09:59:37 1063

转载运行在YARN上的Spark程序的Executor，Cores和Memory的分配

原文网址： https://www.jianshu.com/p/3716ade93b02Hadoop/Yarn/OS 守护进程：当利用一个集群管理器（比如YARN）运行spark程序时，存在一些守护进程运行在后台，比如NameNode，Secondary NameNode，DataNode，JobTracker和TaskTracker。因此，当确定num-executor时，我们需要确保有足够...

2019-05-17 10:03:37 3088

原创 Sprak RDD 持久化

Sprak RDD 持久化Spark中最重要的功能之一是跨操作在内存中持久化（或缓存）数据集。当您持久保存RDD时，每个节点都会存储它在内存中计算的任何分区，并在该数据集（或从中派生的数据集）的其他操作中重用它们。这使得未来的行动更快（通常超过10倍）。您可以使用persist()或cache()方法标记要保留的RDD 。第一次在动作中计算它，它将保留在节点的内存中。Spark的缓存是容错的 ...

2019-05-16 20:32:46 134

原创 elasticsearch 安装部署

elasticsearch linux环境下安装部署下载官网地址：https://www.elastic.co/cn/downloads/elasticsearch创建新用户这里需要注意的是，es 规定 root 用户不能启动 es，所以需要创建一个用户来启动 es#创建用户名为 es 的用户useradd es#设置 es 用户的密码passwd es解压把下载的“ela...

2019-05-16 10:12:19 184

转载 ElasticSearch 原理

ElasticSearch 原理原文网址：https://www.cnblogs.com/dreamroute/p/8484457.html

2019-05-10 10:50:00 121

转载 KUDU介绍

KUDU介绍原文网址：https://www.jianshu.com/p/93c602b637a4

2019-05-09 09:36:01 637

原创 Spark RDD入门

Spark RDD 入门什么是RDDResilient Distributed Dataset (RDD): 弹性分布式数据集。Spark 中的一个基础抽象概念。它表示一个不可变的、分区的、可以并行计算的元素的集合。这个类包含了所有RDD 可以进行的基础的操作。例如：map、filter、persist。RDD函数扩展Spark 通过隐式转换的方法提供这些函数。PairRDDFun...

2019-05-07 20:43:00 192

原创 Spark RDD 分组求TopN三种实现

Spark RDD 分组求TopN优化实现思路方法一：groupBy 实现方法二：repartitionAndSortWithinPartitions 实现实现思路1.分组2.排序3.取出每组的TopN4.合并方法一：groupBy 实现//方法一 2.5s//分组排序并取topNval topNRdd = reducedRdd.map(x => (x._1._1...

2019-05-07 11:34:42 927

原创 HDFS、YARN HA部署

三台机器安装软件配置用户创建新用户useradd hadoop设置用户密码passwd hadoop切换到hadoop用户su - hadoop创建目录mkdir appmkdir software上传软件安装包到rz解压软件配置ssh免密登陆生成秘钥ssh-keygen查看秘钥目录cd .ssh把hadoop001的公钥放...

2019-05-03 15:09:09 250

原创 linux 发送邮件设置

获取授权码1.邮箱点击设置-账户2.开启POP3/SMTP 、IMAP/SMTP 并点击生成授权码启动postfixservice postfix start如果postfix start失败[root@hadoop001 ~]# postfix checkpostfix: error while loading shared libraries: libmysqlclie...

2019-05-02 20:11:52 530

转载 Spark性能优化--基础

原文地址：https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

2019-05-01 19:30:07 103

转载 Spark性能优化--高级篇

原文链接 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

2019-05-01 19:17:09 124

原创 Hiver 入门学习笔记

什么是HiveHive是基于Apache Hadoop的数据仓库基础架构。Hadoop为商用硬件上的数据存储和处理提供了大规模扩展和容错功能。Hive旨在实现轻松的数据汇总，即时查询和分析大量数据。它提供了SQL，使用户可以轻松地进行临时查询，汇总和数据分析。同时，Hive的SQL为用户提供了多个扩展来集成他们自己的功能来进行自定义分析，例如用户定义函数（UDF）。Hive数据组织数据库：...

2019-05-01 11:54:06 336

转载 HDFS NameNode内存详解

原文网址：https://tech.meituan.com/2016/12/09/namenode-memory-detail.html

2019-05-01 09:23:41 150

原创 Linux 常用命令

1. ls — Listls会列举出当前工作目录的内容（文件或文件夹）。这是一个非常有用的查看文件与目录的命令，list之意，它的参数非常多，下面就列出一些我常用的参数吧，如下：-l ：列出长数据串，包含文件的属性与权限数据等-a ：列出全部的文件，连同隐藏文件（开头为.的文件）一起列出来（常用）-d ：仅列出目录本身，而不是列出目录的文件数据-h ：将文件容量以较易读的方式（GB，k...

2019-04-30 11:06:22 251

原创 Hadoop HDFS常用文件操作命令

命令格式调用文件系统（FS）Shell命令应用 bin / hadoop fs 的形式。(可以将hadoop的bin目录配置环境变量)所有的的FS shell命令使用URI路径作为参数.URI格式是scheme：//权限/路径。对HDFS文件系统，方案是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认...

2019-04-30 09:34:54 2283

原创 YARN HA 架构分析

YARN HA 架构分析规划YARN HAhadoop001：zk rm(zkfc) nmhadoop002：zk rm(zkfc) nmhadoop003：zk nmZKFC: 线程只作为RM进程的一个线程而非独立的进程存在架构图1 YARN-HARM：:1.启动时候会向ZK的/rmstore目录写lock文件，写成功就为active，...

2019-04-29 17:59:32 475

原创 HDFS NameNode HA架构分析

HDFS NameNode HA架构分析为什么要实现HDFS NameNode HA(High Availability)？HDFS NameNode HA(High Availability)是什么？Namenode HA 如何实现，关键技术难题是什么？HDFS NameNode HA架构分析NameNode 的主备切换实现防止脑裂脑裂出现的原因Fencing的实现NameNode 的共享存储实...

2019-04-29 16:56:42 2192 1

转载 Hadoop组件之-HDFS-HA实现细节

Hadoop组件之-HDFS-HA实现细节原文网址： https://www.cnblogs.com/dadadechengzi/p/6715906.html

2019-04-25 14:18:25 149

likaiasddsa的博客