2019年02月_大数据玩家

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 JVM详解和 7种垃圾回收器的使用（附带内存调优实战）

目录一、JVM内存监控工具二、jvm内存模型三、GC算法四、垃圾回收器一、JVM内存监控工具 1、jconsole 2、jvisualvm二、jvm内存模型 Java虚拟机运行时数据区域被分为五个区域：堆(Heap)、栈(Stack)、本地方法栈(Native Stac...

2019-02-22 10:17:39 321

原创面试-------hdfs文件上传与下载流程

文件上传1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在2、namenode返回是否可以上传3、client请求第一个 block该传输到哪些datanode服务器上4、namenode返回3个datanode服务器ABC5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，...

2019-02-28 23:37:20 270

原创 Elasticsearch生产环境碰到的问题

1、数据节点产生问题，有时候也会导致master节点产生问题，数据节点内存满了，GC很严重，主节点下发集群状态，下发30秒超时，数据节点又没有死，就会造成阻塞，其他请求无法处理，因为主节点只有一个线程处理集群状态2、集群刚刚启动的时候，很多pending task在处理，close一些索引的操作来不及处理就内存满了，觉得put setting应该设置一些优先级，close优先级更高3、...

2019-02-28 23:27:51 455

原创 Hive中Order by和Sort by的区别是什么?

使用order by会引发全局排序select * from baidu_click order by click desc;使用distribute和sort进行分组排序select * from baidu_click distribute by product_line sort by click desc; distribute by + sort by...

2019-02-27 17:43:27 719

原创 MapReduce工作流程

工作流程 MapReduce启动的时候，最先启动的是MRAppMaster，MRAppMaster根据Job的描述信息，计算出Maptask的数量，申请相对应的Maptask进程。Maptask进程启动之后，根据指定的InputFormat来获取RecordReader读取数据，形成KV键值对，传递给map方法，对数据按一定的切分逻辑进行切分，结果输出到环形缓冲区中，环形缓冲区默...

2019-02-27 16:19:18 161

原创 Spark源码阅读---Master与Worker启动流程

在最开始，我们一键执行start-all.sh即启动了spark集群，殊不知，最终执行的是Master和Worker的类对象。 Master启动流程首先执行Master的伴生对象，执行main方法，初始化并解析一些参数，然后调用startSystemAndActor方法通过AkkaUtils工具类创建ActorSystem，再创建actor，实例化Master对象。 M...

2019-02-26 18:03:12 282

原创 sql求topN

需求统计每小时内host网址的topN 解答步骤一：对每个小时内的来访host次数倒序排序标号select ref_host,pv_ref_host_hour,concat(month,day,hour),row_number() over (partition by concat(month,day,hour) order by pv_ref_ho...

2019-02-26 11:34:25 1371

原创 sql报表--级联操作

需求：有如下访客访问次数统计表 t_access_times 访客月份访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 ...

2019-02-26 11:12:34 242

转载线程池的使用与执行流程

什么是线程池线程池的概念大家应该都很清楚，帮我们重复管理线程，避免创建大量的线程增加开销。除了降低开销以外，线程池也可以提高响应速度，了解点 JVM 的同学可能知道，一个对象的创建大概需要经过以下几步：检查对应的类是否已经被加载、解析和初始化类加载后，为新生对象分配内存将分配到的内存空间初始为 0 对对象进行关键信息的设置，比如对象的哈希码等然后执行 init 方法初始化...

2019-02-26 10:55:22 244

转载单例模式八种写法

简介单例模式是一种常用的软件设计模式，其定义是单例对象的类只能允许一个实例存在。许多时候整个系统只需要拥有一个的全局对象，这样有利于我们协调系统整体的行为。比如在某个服务器程序中，该服务器的配置信息存放在一个文件中，这些配置数据由一个单例对象统一读取，然后服务进程中的其他对象再通过这个单例对象获取这些配置信息。这种方式简化了在复杂环境下的配置管理。基本的实现思路...

2019-02-24 23:35:58 96

原创二分查找法（java实现）

二分查找法作为一种常见的查找方法，将原本是线性时间提升到了对数时间范围，大大缩短了搜索时间，但它有一个前提，就是必须在有序数据中进行查找。二分查找很好写，却很难写对，据统计只有10%的程序员可以写出没有bug的的二分查找代码。出错原因主要集中在判定条件和边界值的选择上，很容易就会导致越界或者死循环的情况。以下不考虑重复值：public int bi...

2019-02-24 22:00:49 201

原创 HashMap resize导致死循环

问题的症状从前我们的Java代码因为一些原因使用了HashMap这个东西，但是当时的程序是单线程的，一切都没有问题。后来，我们的程序性能有问题，所以需要变成多线程的，于是，变成多线程后到了线上，发现程序经常占了100%的CPU，查看堆栈，你会发现程序都Hang在了HashMap.get()这个方法上了，重启程序后问题消失。但是过段时间又会来。而且，这个问题在测试环境里可能很难...

2019-02-22 17:59:57 1420

原创 JavaGuide

详情请见：https://github.com/Snailclimb/JavaGuide

2019-02-22 16:00:41 1696

原创 Hbase写流程

写过程1.Client访问ZK，根据ROOT表获取meta表所在Region的位置信息，并将该位置信息写入Client Cache。（注：为了加快数据访问速度，我们将元数据、Region位置等信息缓存在Client Cache中。）2.Client读取meta表，再根据meta表中查询得到的Namespace、表名和RowKey等相关信息，获取将要写入Region的位置信息（此过程即R...

2019-02-22 15:26:05 155

原创 HBase实战 | HBase Rowkey 设计指南

RowKey 到底是什么我们常说看一张 HBase 表设计的好不好，就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么？RowKey 的特点如下：类似于 MySQL、Oracle中的主键，用于标示唯一的行；完全是由用户指定的一串不重复的字符串； HBase 中的数据永远是根据 Rowkey...

2019-02-22 14:04:07 278

转载 HBase 读流程解析与优化的最佳实践

一、前言本文首先对 HBase 做简单的介绍，包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析，并根据此流程介绍如何在客户端以及服务端优化性能，同时结合有赞线上 HBase 集群的实际应用情况，将理论和实践结合，希望能给读者带来启发。如文章有纰漏请在下面留言，我们共同探讨共同学习。二、 HBase 简介 HBase 是一个分布...

2019-02-22 10:44:42 175

原创假如有一个很大的文件里面全是数字，你要对其进行排序，你要怎么做呢？

我们可以将一个很大的文件，切分成很多个小文件，使得每个小文件能够单独的装进内存，并将每个小文件进行内排序（快速排序等等），然后再将多个小文件进行多路归并排序，最终得到一个有序的文件。多路归并排序在大数据领域也是常用的算法，常用于海量数据排序。当数据量特别大时，这些数据无法被单个机器内存容纳，它需要被切分位多个集合分别由不同的机器进行内存排序（map 过程），然后再进行...

2019-02-21 16:10:28 3051 1

原创给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

分别扫描A，B两个文件，根据hash(url)%k(k为正整数，比如k = 1000，那么每个小文件只占用300M，内存完全可以放得下)将url划分到不同的k个文件中，比如a0，a1,....a999;b0，b1，...b999；这样处理后相同的url肯定在对应的小文件中（a0 vs b0,a1 vs b1,...a999 vs b999）因为相同的url%1000的值肯定...

2019-02-21 14:56:07 2196 1

原创 final关键字详解

final根据修饰位置的不同作用也不相同，针对三种情况：　　1）修饰变量，被final修饰的变量必须要初始化，赋初值后不能再重新赋值。　　　　　　注意：局部变量不在我们讨论的范畴，因为局部变量本身就有作用范围，不使用private、public等词修饰。　　2）修饰方法，被final修饰的方法代表不能重写，但可以被重载。　　3）修饰类，被final修饰的类，不能够被继承。　　　...

2019-02-21 14:33:25 163

转载 HBase原理 | HBase内部探险

一.数据模型1.重要概念回顾 Namespace（表命名空间）：将多个表分到一个组进行统一管理。 Table（表）：一个表由一个或者多个列族组成；数据属性比如：超时时间（TTL），压缩算法（COMPRESSION）等，都在列族的定义中定义；定义完列族后表是空的，只有添加了行，表才有数据。 Row（行）：一个行包含了多个列，这些列通过列族来分类；行中的数据所属列族只能从...

2019-02-19 11:36:01 210

原创 Elasticsearch Shrink缩小分片数

相信大家都知道 elasticsearch 索引的 shard 数是固定的，设置好了之后不能修改，如果发现 shard 太多或者太少的问题，之前如果要设置 Elasticsearch 的分片数，只能在创建索引的时候设置好，并且数据进来了之后就不能进行修改，如果要修改，只能重建索引。现在有了 Shrink 接口，它可将分片数进行收缩成它的因数，如之前你是 15 个分片，你可以收...

2019-02-03 13:36:39 2831

原创 ElasticSearch调优

1、设计阶段调优1.每天定期段合并Segments查看内存占用：curl -s 'http://192.168.10.202:9200/_cat/indices?v' 备注：store.size 代表副分片内存占用； pri.store.size 代表主分片内存占用合并Segments: curl -s -XPOST 'http://192.1...

2019-02-02 21:11:27 387

原创断电或重启集群elasticsearch，你所需要做的事！

正如我们在水平扩容讨论过， Elasticsearch 将自动在可用节点间进行分片均衡，包括新节点的加入和现有节点的离线。理论上来说，这个是理想的行为，我们想要提拔副本分片来尽快恢复丢失的主分片。我们同时也希望保证资源在整个集群的均衡，用以避免热点。

2019-02-02 16:57:49 1663

原创记一次hadoop.tmp.dir配置因重启机器导致无法启动

缘由线上一直运行的hadopp集群，突然有一天服务器断电重启，集群正常启动，但是spark on yarn上的任务无法提交，报错一提交任务AM就被kill掉。解决方案步骤一在$HADOOP_HOME/etc/hadoop中的core-site.xml有个 hadoop.tmp.dir 配置的是Hadoop临时目录，比如HDFS的NameNode数据默认都存...

2019-02-02 11:44:56 838

kafka-manager2.0.0.2

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

kafka-manager3.0.0.4安装包（编译后）

kafka-manager编译后的安装包，直接解压安装，免编译！

2020-12-16

clickhouse之zabbix监控模板（支持账号密码，配置文件可传）

2019-09-24

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

flink-hadoop-compatibility_2.12-1.7.1.jar javax.ws.rs-api-2.0.1.jar jersey-common-2.27.jar jersey-core-1.19.4.jar 解决 Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

2019-06-06

apache-kylin-2.6.2-bin-hadoop3.tar.gz

apache-kylin-2.6.2-bin-hadoop3.tar.gz 最新版本修复版下载，修改报错 Missing required configuration "partition.assignment.strategy" which has no default value. ".

2019-05-15

Spring 加密工具包(kylin密码加密工具包)

使用方法:用java命令 java -jar encryption.jar admin

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

bigdata_player