自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

转载 JVM内存结构详解

主要内容如下:JVM启动流程 JVM基本结构 内存模型 编译和解释运行的概念 一、JVM启动流程:JVM启动时,是由java命令/javaw命令来启动的。二、JVM基本结构:JVM基本结构图:《深入理解Java虚拟机(第二版)》中的描述是下面这个样子的: Java中的内存分配:Java程序在运行时,需要在内存中的分配空间。为了提高运算效率,就...

2018-09-28 11:10:19 250

原创 JVM 参数使用详解

JVM命令行参数主要有3类:1、标准参数(eg:-client),可通过java --help查看所有标准参数2、X参数,非标准参数(eg:-Xmxsize),可通过java -X查看所有标准参数3、XX参数,非稳定参数(eg:-XX:+AggressiveOpts)。参数使用说明:-XX:+option 启用选项-XX:-option 不启用选项-XX:option=numbe...

2018-09-28 10:28:28 341

转载 JVM监控工具详解

企业级应用开发中经常会遇到以下问题,可以使用工具对JVM进行监管,以便及时查找问题所在。  内存不足OutOfMemory(大对象没有gc等),内存泄露;  线程死锁,线程数过多;  锁争用(Lock Contention),资源未及时释放(数据库);  Java进程CPU消耗过高.一、Java自带工具  Java安装目录的bin文件加下有一些工具可以用来监控JVM性能,如jcon...

2018-09-27 14:32:03 545

转载 解决Spark OOM

spark任务在调试过程中,OOM是非常讨厌的一种情况。本文针对Heap OOM的情况先做一定分析,告诉大家如何调参。1.Heap OOM的现象如果在Spark UI或者在spark.log中看到如下日志:java.lang.OutOfMemoryError: GC overhead limit exceededjava.lang.OutOfMemoryError: java he...

2018-09-26 10:33:11 4201

转载 HDFS文件目录结构详解

HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的dfs.namenode.name.dir和dfs.datanode.data.dir。 一、...

2018-09-26 10:15:02 6906

转载 Spark 堆外内存

转自:https://blog.csdn.net/bitcarmanlee/article/details/787938231.堆外内存有哪些前面提到spark中的堆内存溢出,除了堆内存,还有堆外内存。该部分内存主要用于程序的共享库、Perm Space、 线程Stack和一些Memory mapping等, 或者类C方式allocate object.堆外内存在Spark中可以从逻辑...

2018-09-26 09:29:18 4522

转载 Spark SQL详解

转自:https://mp.weixin.qq.com/s/SGhYBxGd5qCVfeM70DRFTw发家史熟悉spark sql的都知道,spark sql是从shark发展而来。Shark为了实现Hive兼容,在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业(辅以内存列式存储等各种和Hive关...

2018-09-26 09:06:17 3708

原创 Linux查询内存或CPU占用最多的几个进程

一、可以使用以下命令查使用内存最多的10个进程方法1:ps -aux | sort -k4nr | head -10如果是最高的三个,10改为3即可命令解释: 1. ps:参数a指代all——所有的进程,u指代userid——执行该进程的用户id,x指代显示所有程序,不以终端机来区分。ps -aux的输出格式如下:USER PID %CPU %MEM V...

2018-09-19 14:16:57 19943

原创 Log4j 配置详细介绍

 Log4J的配置文件(Configuration File)就是用来设置记录器的级别、存放器和布局的,它可接key=value格式的设置或xml格式的设置信息。通过配置,可以创建出Log4J的运行环境。 1. 配置文件Log4J配置文件的基本格式如下:#配置根Loggerlog4j.rootLogger  =   [ level ]   ,  appenderName1 , ...

2018-09-18 10:34:06 326

转载 HBase最佳实践之Region数量&大小

Region数量通常较少的region数量可使群集运行的更加平稳,官方指出每个RegionServer大约100个regions的时候效果最好,理由如下: HBase的一个特性MSLAB,它有助于防止堆内存的碎片化,减轻垃圾回收Full GC的问题,默认是开启的。但是每个MemStore需要2MB(一个列簇对应一个写缓存memstore)。所以如果每个region有2个family列簇,...

2018-09-18 08:41:31 22266

转载 爱奇艺实时计算实战

转自:http://bigdata.it168.com/a2018/0911/5030/000005030447.shtml【IT168 专稿】本文根据胡嘉伟老师在2018年5月12日【第九届中国数据库技术大会】现场演讲内容整理而成。  讲师简介:  胡嘉伟,爱奇艺高级工程师。2016年毕业于上海交通大学并加入爱奇艺分布式实时计算团队, 工作期间,作为核心开发人员, 开发实现了Babe...

2018-09-17 11:36:49 1589

原创 Spark Locality Level

分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况。移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率。Spark UI可以查看取数据情况 下面是Spark webUI监控Stage的一个图: PROCESS_LOCAL是指读取缓存在本地节点的数据 NODE_LOCAL是指读...

2018-09-14 09:56:45 1488

转载 Elasticsearch 完整版教程目录

非常好的干货,收藏了! 版权声明:本文为博主原创文章,未经博主允许不得转载。转载请务必加上原作者:铭毅天下,原文地址:blog.csdn.net/laoyang360 https://blog.csdn.net/wojiushiwo987/article/details/79293493人工智能、大数据快速发展的今天,对于 TB 甚至 PB 级大数据的快速检索已然成为刚需。Elasti...

2018-09-11 14:10:05 441

转载 JVM堆内存(heap)详解

很好的一篇文章,转载了http://blog.51cto.com/lizhenliang/2164876?wx=JAVA堆内存管理是影响性能主要因素之一。堆内存溢出是JAVA项目非常常见的故障,在解决该问题之前,必须先了解下JAVA堆内存是怎么工作的。先看下JAVA堆内存是如何划分的,如图:JVM内存划分为堆内存和非堆内存,堆内存分为年轻代(Young Generation)、老...

2018-09-10 11:10:11 48147 7

原创 Spark SQL/DataFrame/DataSet操作(四)-----Join

数据准备,先构建两个DataFramescala> val df1 = spark.createDataset(Seq(("a", 1,2), ("b",2,3) )).toDF("k1","k2","k3")df1: org.apache.spark.sql.DataFrame = [k1: string, k2: int ... 1 more field]scala&g

2018-09-06 18:04:28 2420

原创 Spark SQL/DataFrame/DataSet操作(三)-----分组聚合groupBy

分组函数groupBy(1)分组计数select address,count(1) from people group by address;  等价的算子如下scala> peopleDF.show()+--------+---+--------+| name|age| address|+--------+---+--------+|zhangsan| 22| ...

2018-09-06 16:26:46 18777 1

原创 Spark SQL/DataFrame/DataSet操作(二)-----算子filter和sort

一、过滤算子filter(filter等价于where算子)DF.col("id")等价于$"id",取列ColumnNameDF.filter("name=''")    过滤name等于空的行DF.filter($"age" > 21).show()     过滤age大于21的行,必须增加语句:import spark.implicits._,否则$表达式会报错DF.f...

2018-09-06 15:07:56 8201

原创 Spark SQL/DataFrame/DataSet操作(一)-----读数据

所有示例代码均在spark-shell上运行,我使用的是spark 2.2,其它版本方法类似  。示例代码中的spark为Spark session变量 一、读取数据源(1)读取json ,使用spark.read。注意:路径默认是从HDFS,如果要读取本机文件,需要加前缀file://,如下scala> val people = spark.read.format("...

2018-09-06 14:05:20 1908

原创 Linux netstat查看端口占用情况

一、使用netstat命令可查看端口使用情况(1)  查看服务端口是否启用。常用于查看服务器进程端口是否启动[root@cdh-003 ~]# netstat -nlp |grep 21050tcp6       0      0 :::21050                :::*                    LISTEN      10859/impalad (2)...

2018-09-05 11:19:30 5400

转载 Kappa:比Lambda更好更灵活的实时处理架构

转自:http://bigdata.51cto.com/art/201702/531038.htm 本篇文章中分析Lambda三层结构模型的适用场景,同时暴露出Lambda架构一个最明显的问题:它需要维护两套分别跑在批处理和实时计算系统上面的代码,而且这两套代码需要产出一致的结果。根据对此缺点的分析,我们引出当时还在LinkedIn的大神Jay Kreps提出的Kappa架构,本文会对Ka...

2018-09-04 11:30:20 1852

转载 Spark Streaming 背压(Back Pressure)机制

本文原文:https://www.iteblog.com/archives/2323.html,点击下面阅读原文即可进入背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 S...

2018-09-04 11:14:56 11649

转载 Spark SQL在100TB上的自适应执行实践

作者:汪愈舟   俞育才   郭晨钊   程浩(英特尔),李元健(百度)责编:钱曙光(qianshg@csdn.net) Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技...

2018-09-03 11:11:56 1637

原创 Hive ANALYZE NOSCAN

参考官网:https://cwiki.apache.org/confluence/display/Hive/StatsDev一、Hive分析统计语句如下:ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)]  -- (Note: Fully support qualified...

2018-09-03 10:44:48 2460

Python2.6安装程序

Python安装程序,安装后可用!希望对大家有帮助

2011-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除