大数据
明天你好lk
很高兴和大家一起交流大数据知识
展开
-
Spark性能优化--高级篇
原文链接 https://tech.meituan.com/2016/05/12/spark-tuning-pro.html转载 2019-05-01 19:17:09 · 126 阅读 · 0 评论 -
flume 安装部署入门
flume 安装部署环境centos:7.2JDK:1.8Flume:1.9安装下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz解压tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /home/hadoop/a...原创 2019-05-27 10:22:39 · 207 阅读 · 0 评论 -
Spark SQL 入门 DF、DS
Spark SQL 入门SparkSessionSpark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName(“Spark SQL...原创 2019-05-23 09:59:37 · 1069 阅读 · 0 评论 -
Spark streaming消费Kafka的正确姿势
Spark streaming消费Kafka的正确姿势原文网址: https://www.cnblogs.com/importbigdata/p/10765558.html转载 2019-06-13 09:17:58 · 421 阅读 · 0 评论 -
Spark中Cache与Persist的巅峰对决
原文网址: https://mp.weixin.qq.com/s/BNNUyXyZNtuxJMlxGDVymA转载 2019-06-14 09:33:37 · 126 阅读 · 0 评论 -
HDFS优化之 回收站
HDFS为每个用户创建一个回收站:目录:/user/用户/.Trash/Current, 系统回收站都有一个周期,周期过后hdfs会彻底删除清空,周期内可以恢复。一、HDFS删除文件,无法恢复[hadoop@hadoop001 opt]$ hdfs dfs -rm /123.logDeleted /123.log二、 启用回收站功能[hadoop@hadoop001 hadoop...原创 2019-06-15 18:22:12 · 295 阅读 · 0 评论 -
大数据常用压缩方式对比
1. 压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度坏处由于使用数据时,需要先将数据解压,加重CPU负荷2. 压缩格式压缩比压缩时间可以看出,压缩比越高,压缩时间越长,压缩比:Snappy>LZ4>LZO>GZIP>BZIP2需要安装;linux系统下没有对应的命令d...原创 2019-06-15 18:30:20 · 4434 阅读 · 2 评论 -
HDFS架构图和副本放置策略
HDFS架构HDFS主要由3个组件构成,分别是NameNode、SecondaryNameNode和DataNode,HSFS是以master/slave模式运行的,其中NameNode、SecondaryNameNode 运行在master节点,DataNode运行slave节点。NameNode和DataNode架构图NameNode(名称节点)存储:元信息的种类,包含:文件名称...原创 2019-06-15 18:34:29 · 661 阅读 · 0 评论 -
JVM内存溢出
java.lang.OutOfMemoryError: PermGen space这个异常比较常见,是说JVM里的Perm内 存区的异常溢出,由于JVM在默认的情况下,Perm默认为64M,而很多程序需要大量的Perm区内 存,尤其使用到像Spring等框架的时候,由于需要使用到动态生成类,而这些类不能被GC自动释放,所以导致OutOfMemoryError: PermGen space异常。...原创 2019-06-15 23:07:49 · 122 阅读 · 0 评论 -
Spark性能优化
概述:Spark的调优有很多方面。要想Spark的性能提高,就得充分利用好系统资源,尤其是内存和CPU。核心思想就是减少数据落盘、提高并行度、减少shuffle、减少网络传输。1. 开发调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化尽量避免使用shuffle类算子。shuffle算子如distinct(实际调用reduceByKey)、reduceB...原创 2019-06-15 23:30:50 · 167 阅读 · 0 评论 -
RDD、DataFrame、DataSet 的对比
TypeRDDDataFrameDataSet定义RDD是分布式的Java对象的集合DataFrame是分布式的Row对象的集合DataSet是分布式Java对象的集合ds = df.as[ElementType]df = Dataset[Row]优点编译时类型安全、面向对象的编程风格引入schema结构信息、减少数据读取、优化执行计划,如filter下推,...原创 2019-06-15 23:38:34 · 126 阅读 · 0 评论 -
Spark SQL读取外部数据源
Spark SQL读取外部数据源1、Spark SQL可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json, parquet, avro, csv格式。2、通过外部数据源API读取各种格式的数据,会得到一个DataFrame,可以使用DataFrame的API或者SQL的API进行操作。3、保存操作可以选择使用SaveMode,指定如何保存现...原创 2019-06-15 23:53:19 · 505 阅读 · 0 评论 -
HDFS 优化
一.hdfs-default.xml1>.dfs.namenode.handler.countNameNode 的服务器线程的数量。如果集群节点数在20左右的话,推荐设置为200。2>.dfs.datanode.handler.count数据节点的服务器线程数,默认为10。3>.dfs.datanode.max.transfer.threads (dfs.datanod...原创 2019-06-16 20:24:38 · 1939 阅读 · 0 评论 -
YARN 优化
YARN 优化yarn.app.mapreduce.am.resource.mbApplicationMaster的container占用的内存大小,可适当调低mapreduce.map.memory.mb/mapreduce.reduce.memory.mb作业的每个 Map/Reduce任务分配的物理内存量,参数大于最小容器内存(yarn.scheduler.minimum-alloc...原创 2019-06-16 20:27:17 · 655 阅读 · 0 评论 -
运行在YARN上的Spark程序的Executor,Cores和Memory的分配
原文网址: https://www.jianshu.com/p/3716ade93b02Hadoop/Yarn/OS 守护进程:当利用一个集群管理器(比如YARN)运行spark程序时,存在一些守护进程运行在后台,比如NameNode,Secondary NameNode,DataNode,JobTracker和TaskTracker。因此,当确定num-executor时,我们需要确保有足够...转载 2019-05-17 10:03:37 · 3095 阅读 · 0 评论 -
Sprak RDD 持久化
Sprak RDD 持久化Spark中最重要的功能之一是跨操作在内存中持久化(或缓存)数据集。当您持久保存RDD时,每个节点都会存储它在内存中计算的任何分区,并在该数据集(或从中派生的数据集)的其他操作中重用它们。这使得未来的行动更快(通常超过10倍)。您可以使用persist()或cache()方法标记要保留的RDD 。第一次在动作中计算它,它将保留在节点的内存中。Spark的缓存是容错的 ...原创 2019-05-16 20:32:46 · 137 阅读 · 0 评论 -
Spark性能优化--基础
原文地址:https://tech.meituan.com/2016/04/29/spark-tuning-basic.html转载 2019-05-01 19:30:07 · 106 阅读 · 0 评论 -
linux 发送邮件设置
获取授权码1.邮箱点击设置-账户2.开启POP3/SMTP 、IMAP/SMTP 并点击生成授权码启动postfixservice postfix start如果postfix start失败[root@hadoop001 ~]# postfix checkpostfix: error while loading shared libraries: libmysqlclie...原创 2019-05-02 20:11:52 · 542 阅读 · 0 评论 -
HDFS、YARN HA部署
三台机器安装软件 配置用户创建新用户useradd hadoop设置用户密码passwd hadoop切换到hadoop用户su - hadoop创建目录mkdir appmkdir software上传软件安装包到rz解压软件配置ssh免密登陆生成秘钥ssh-keygen查看秘钥目录cd .ssh把hadoop001的公钥放...原创 2019-05-03 15:09:09 · 258 阅读 · 0 评论 -
HDFS NameNode HA架构分析
HDFS NameNode HA架构分析为什么要实现HDFS NameNode HA(High Availability)?HDFS NameNode HA(High Availability)是什么?Namenode HA 如何实现,关键技术难题是什么?HDFS NameNode HA架构分析NameNode 的主备切换实现防止脑裂脑裂出现的原因Fencing的实现NameNode 的共享存储实...原创 2019-04-29 16:56:42 · 2204 阅读 · 1 评论 -
Hadoop组件之-HDFS-HA实现细节
Hadoop组件之-HDFS-HA实现细节原文网址: https://www.cnblogs.com/dadadechengzi/p/6715906.html转载 2019-04-25 14:18:25 · 157 阅读 · 0 评论 -
Hadoop HDFS常用文件操作命令
命令格式调用文件系统(FS)Shell命令应用 bin / hadoop fs 的形式。(可以将hadoop的bin目录配置环境变量)所有的的FS shell命令使用URI路径作为参数.URI格式是scheme://权限/路径。对HDFS文件系统,方案是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认...原创 2019-04-30 09:34:54 · 2288 阅读 · 0 评论 -
HDFS NameNode内存详解
原文网址:https://tech.meituan.com/2016/12/09/namenode-memory-detail.html转载 2019-05-01 09:23:41 · 154 阅读 · 0 评论 -
KUDU介绍
KUDU介绍原文网址:https://www.jianshu.com/p/93c602b637a4转载 2019-05-09 09:36:01 · 646 阅读 · 0 评论 -
Hiver 入门学习笔记
什么是HiveHive是基于Apache Hadoop的数据仓库基础架构。Hadoop为商用硬件上的数据存储和处理提供了大规模扩展和容错功能。Hive旨在实现轻松的数据汇总,即时查询和分析大量数据。它提供了SQL,使用户可以轻松地进行临时查询,汇总和数据分析。同时,Hive的SQL为用户提供了多个扩展来集成他们自己的功能来进行自定义分析,例如用户定义函数(UDF)。Hive数据组织数据库:...原创 2019-05-01 11:54:06 · 343 阅读 · 0 评论 -
Spark RDD 分组求TopN三种实现
Spark RDD 分组求TopN优化实现思路方法一 :groupBy 实现方法二:repartitionAndSortWithinPartitions 实现实现思路1.分组2.排序3.取出每组的TopN4.合并方法一 :groupBy 实现//方法一 2.5s//分组排序并取topNval topNRdd = reducedRdd.map(x => (x._1._1...原创 2019-05-07 11:34:42 · 939 阅读 · 0 评论 -
ElasticSearch 原理
ElasticSearch 原理原文网址:https://www.cnblogs.com/dreamroute/p/8484457.html转载 2019-05-10 10:50:00 · 125 阅读 · 0 评论 -
Spark RDD入门
Spark RDD 入门什么是RDDResilient Distributed Dataset (RDD): 弹性分布式数据集。Spark 中的一个基础抽象概念。它表示一个 不可变的、分区的、可以并行计算的元素的集合。这个类包含了所有RDD 可以进行的基础的操作。例如:map、filter、persist。RDD函数扩展Spark 通过隐式转换的方法提供这些函数。PairRDDFun...原创 2019-05-07 20:43:00 · 199 阅读 · 0 评论 -
elasticsearch 安装部署
elasticsearch linux环境下安装部署下载官网地址:https://www.elastic.co/cn/downloads/elasticsearch创建新用户这里需要注意的是,es 规定 root 用户不能启动 es,所以需要创建一个用户来启动 es#创建用户名为 es 的用户useradd es#设置 es 用户的密码passwd es解压把下载的“ela...原创 2019-05-16 10:12:19 · 191 阅读 · 0 评论 -
perf + 火焰图分析程序性能
perf + 火焰图分析程序性能原文网址: https://www.cnblogs.com/happyliu/p/6142929.html转载 2019-05-25 15:45:29 · 356 阅读 · 0 评论 -
kafka性能调优
kafka性能调优1、将一个topic拆分为多个partition可以提高吞吐量。不同partition需 要位于不同的磁盘(可以在同一个机器)。如果多个partition位于同一个磁盘,那么意味着有多个进程同时对一个磁盘的多个文 件进行读写,使得操作系统会对磁盘读写进行频繁调度,也就是破坏了磁盘读写的连续性。同一个ConsumerGroup内的Consumer和Partition在同一时间...原创 2019-06-16 20:34:00 · 611 阅读 · 0 评论