自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bigdata_player

大数据工厂

  • 博客(24)
  • 资源 (8)
  • 收藏
  • 关注

原创 JVM详解 和 7种垃圾回收器的使用(附带内存调优实战)

目录一、JVM内存监控工具二、jvm内存模型三、GC算法四、垃圾回收器一、JVM内存监控工具 1、jconsole 2、jvisualvm二、jvm内存模型 Java虚拟机运行时数据区域被分为五个区域: 堆(Heap)、栈(Stack)、本地方法栈(Native Stac...

2019-02-22 10:17:39 321

原创 面试-------hdfs文件上传与下载流程

文件上传1、根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在2、namenode返回是否可以上传3、client请求第一个 block该传输到哪些datanode服务器上4、namenode返回3个datanode服务器ABC5、client请求3台dn中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,...

2019-02-28 23:37:20 270

原创 Elasticsearch生产环境碰到的问题

1、数据节点产生问题,有时候也会导致master节点产生问题,数据节点内存满了,GC很严重,主节点下发集群状态,下发30秒超时,数据节点又没有死,就会造成阻塞,其他请求无法处理,因为主节点只有一个线程处理集群状态2、集群刚刚启动的时候,很多pending task在处理,close一些索引的操作来不及处理就内存满了,觉得put setting应该设置一些优先级,close优先级更高3、...

2019-02-28 23:27:51 455

原创 Hive中Order by和Sort by的区别是什么?

使用order by会引发全局排序select * from baidu_click order by click desc;使用distribute和sort进行分组排序select * from baidu_click distribute by product_line sort by click desc;     distribute by + sort by...

2019-02-27 17:43:27 719

原创 MapReduce工作流程

工作流程        MapReduce启动的时候,最先启动的是MRAppMaster,MRAppMaster根据Job的描述信息,计算出Maptask的数量,申请相对应的Maptask进程。Maptask进程启动之后,根据指定的InputFormat来获取RecordReader读取数据,形成KV键值对,传递给map方法,对数据按一定的切分逻辑进行切分,结果输出到环形缓冲区中,环形缓冲区默...

2019-02-27 16:19:18 161

原创 Spark源码阅读---Master与Worker启动流程

     在最开始,我们一键执行start-all.sh即启动了spark集群,殊不知,最终执行的是Master和Worker的类对象。 Master启动流程首先执行Master的伴生对象,执行main方法,初始化并解析一些参数,然后调用startSystemAndActor方法通过AkkaUtils工具类创建ActorSystem,再创建actor,实例化Master对象。 M...

2019-02-26 18:03:12 282

原创 sql求topN

需求       统计每小时内host网址的topN 解答      步骤一:对每个小时内的来访host次数倒序排序标号select ref_host,pv_ref_host_hour,concat(month,day,hour),row_number() over (partition by concat(month,day,hour) order by pv_ref_ho...

2019-02-26 11:34:25 1371

原创 sql报表--级联操作

需求:有如下访客访问次数统计表 t_access_times 访客 月份 访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 ...

2019-02-26 11:12:34 242

转载 线程池的使用与执行流程

什么是线程池线程池的概念大家应该都很清楚,帮我们重复管理线程,避免创建大量的线程增加开销。除了降低开销以外,线程池也可以提高响应速度,了解点 JVM 的同学可能知道,一个对象的创建大概需要经过以下几步:检查对应的类是否已经被加载、解析和初始化 类加载后,为新生对象分配内存 将分配到的内存空间初始为 0 对对象进行关键信息的设置,比如对象的哈希码等 然后执行 init 方法初始化...

2019-02-26 10:55:22 244

转载 单例模式八种写法

简介      单例模式是一种常用的软件设计模式,其定义是单例对象的类只能允许一个实例存在。     许多时候整个系统只需要拥有一个的全局对象,这样有利于我们协调系统整体的行为。比如在某个服务器程序中,该服务器的配置信息存放在一个文件中,这些配置数据由一个单例对象统一读取,然后服务进程中的其他对象再通过这个单例对象获取这些配置信息。这种方式简化了在复杂环境下的配置管理。基本的实现思路...

2019-02-24 23:35:58 96

原创 二分查找法(java实现)

      二分查找法作为一种常见的查找方法,将原本是线性时间提升到了对数时间范围,大大缩短了搜索时间,但它有一个前提,就是必须在有序数据中进行查找。      二分查找很好写,却很难写对,据统计只有10%的程序员可以写出没有bug的的二分查找代码。出错原因主要集中在判定条件和边界值的选择上,很容易就会导致越界或者死循环的情况。      以下不考虑重复值:public int bi...

2019-02-24 22:00:49 201

原创 HashMap resize导致死循环

 问题的症状      从前我们的Java代码因为一些原因使用了HashMap这个东西,但是当时的程序是单线程的,一切都没有问题。后来,我们的程序性能有问题,所以需要变成多线程的,于是,变成多线程后到了线上,发现程序经常占了100%的CPU,查看堆栈,你会发现程序都Hang在了HashMap.get()这个方法上了,重启程序后问题消失。但是过段时间又会来。而且,这个问题在测试环境里可能很难...

2019-02-22 17:59:57 1420

原创 JavaGuide

详情请见:https://github.com/Snailclimb/JavaGuide

2019-02-22 16:00:41 1696

原创 Hbase写流程

写过程1.Client访问ZK,根据ROOT表获取meta表所在Region的位置信息,并将该位置信息写入Client Cache。 (注:为了加快数据访问速度,我们将元数据、Region位置等信息缓存在Client Cache中。)2.Client读取meta表,再根据meta表中查询得到的Namespace、表名和RowKey等相关信息,获取将要写入Region的位置信息(此过程即R...

2019-02-22 15:26:05 155

原创 HBase实战 | HBase Rowkey 设计指南

RowKey 到底是什么      我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好。可见 RowKey 在 HBase 中的地位。那么 RowKey 到底是什么?RowKey 的特点如下: 类似于 MySQL、Oracle中的主键,用于标示唯一的行; 完全是由用户指定的一串不重复的字符串; HBase 中的数据永远是根据 Rowkey...

2019-02-22 14:04:07 278

转载 HBase 读流程解析与优化的最佳实践

一、前言     本文首先对 HBase 做简单的介绍,包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析,并根据此流程介绍如何在客户端以及服务端优化性能,同时结合有赞线上 HBase 集群的实际应用情况,将理论和实践结合,希望能给读者带来启发。如文章有纰漏请在下面留言,我们共同探讨共同学习。二、 HBase 简介     HBase 是一个分布...

2019-02-22 10:44:42 175

原创 假如有一个很大的文件里面全是数字,你要对其进行排序,你要怎么做呢?

       我们可以将一个很大的文件,切分成很多个小文件,使得每个小文件能够单独的装进内存,并将每个小文件进行内排序(快速排序等等),然后再将多个小文件进行多路归并排序,最终得到一个有序的文件。      多路归并排序在大数据领域也是常用的算法,常用于海量数据排序。当数据量特别大时,这些数据无法被单个机器内存容纳,它需要被切分位多个集合分别由不同的机器进行内存排序(map 过程),然后再进行...

2019-02-21 16:10:28 3051 1

原创 给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?

     分别扫描A,B两个文件,根据hash(url)%k(k为正整数,比如k = 1000,那么每个小文件只占用300M,内存完全可以放得下)将url划分到不同的k个文件中,比如a0,a1,....a999;b0,b1,...b999;     这样处理后相同的url肯定在对应的小文件中(a0 vs b0,a1 vs b1,...a999 vs b999)因为相同的url%1000的值肯定...

2019-02-21 14:56:07 2196 1

原创 final关键字详解

final根据修饰位置的不同作用也不相同,针对三种情况:  1)修饰变量,被final修饰的变量必须要初始化,赋初值后不能再重新赋值。      注意:局部变量不在我们讨论的范畴,因为局部变量本身就有作用范围,不使用private、public等词修饰。  2)修饰方法,被final修饰的方法代表不能重写,但可以被重载。  3)修饰类,被final修饰的类,不能够被继承。   ...

2019-02-21 14:33:25 163

转载 HBase原理 | HBase内部探险

一.数据模型1.重要概念回顾 Namespace(表命名空间):将多个表分到一个组进行统一管理。 Table(表):一个表由一个或者多个列族组成;数据属性比如:超时时间(TTL),压缩算法(COMPRESSION)等,都在列族的定义中定义;定义完列族后表是空的,只有添加了行,表才有数据。 Row(行):一个行包含了多个列,这些列通过列族来分类;行中的数据所属列族只能从...

2019-02-19 11:36:01 210

原创 Elasticsearch Shrink缩小分片数

     相信大家都知道 elasticsearch 索引的 shard 数是固定的,设置好了之后不能修改,如果发现 shard 太多或者太少的问题,之前如果要设置 Elasticsearch 的分片数,只能在创建索引的时候设置好,并且数据进来了之后就不能进行修改,如果要修改,只能重建索引。    现在有了 Shrink 接口,它可将分片数进行收缩成它的因数,如之前你是 15 个分片,你可以收...

2019-02-03 13:36:39 2831

原创 ElasticSearch调优

1、设计阶段调优1.每天定期段合并Segments查看内存占用:curl -s 'http://192.168.10.202:9200/_cat/indices?v'            备注:store.size 代表副分片内存占用 ; pri.store.size 代表主分片内存占用合并Segments:    curl -s -XPOST 'http://192.1...

2019-02-02 21:11:27 387

原创 断电或重启集群elasticsearch,你所需要做的事!

正如我们在 水平扩容 讨论过, Elasticsearch 将自动在可用节点间进行分片均衡,包括新节点的加入和现有节点的离线。理论上来说,这个是理想的行为,我们想要提拔副本分片来尽快恢复丢失的主分片。 我们同时也希望保证资源在整个集群的均衡,用以避免热点。

2019-02-02 16:57:49 1663

原创 记一次hadoop.tmp.dir配置因重启机器导致无法启动

缘由      线上一直运行的hadopp集群,突然有一天服务器断电重启,集群正常启动,但是spark on  yarn上的任务无法提交,报错一提交任务AM就被kill掉。解决方案步骤一      在$HADOOP_HOME/etc/hadoop中的core-site.xml有个 hadoop.tmp.dir 配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存...

2019-02-02 11:44:56 838

zookeeper备份恢复工具

可以指定zk node进行备份与恢复,方便使用

2021-11-05

kafka-manager2.0.0.2

kafka-manager编译后的安装包,直接解压安装,免编译!

2020-12-16

kafka-manager3.0.0.4安装包(编译后)

kafka-manager编译后的安装包,直接解压安装,免编译!

2020-12-16

推荐系统算法工程师——从入门到就业.txt

推荐系统是电商和内容型app网站生存的重要手段,是以重新组织物品分类和聚类方式形成的人工智能系统。亚马逊的商品推荐、优酷的视频推荐,都是推荐系统的应用实例。每一个具体的应用场景中推荐系统表现形式有所不同,但是最终都是以增加内容、商品曝光度为前提的。 推荐系统根据每一个用户的行为和喜好,找到这个用户未来可能喜欢和购买的商品或者是物品。它使得内容、电商两大产业减少了大量的人工编辑推荐的工作,只需要用一些简单或者深入的算法,就可以达到很好的效果。

2019-11-26

clickhouse之zabbix监控模板(支持账号密码,配置文件可传)

clickhouse之zabbix监控模板(支持账号密码,配置文件可传)

2019-09-24

flink on yarn 缺少依赖NoClassDefFoundError: com/sun/jersey

flink-hadoop-compatibility_2.12-1.7.1.jar javax.ws.rs-api-2.0.1.jar jersey-common-2.27.jar jersey-core-1.19.4.jar 解决 Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig

2019-06-06

apache-kylin-2.6.2-bin-hadoop3.tar.gz

apache-kylin-2.6.2-bin-hadoop3.tar.gz 最新版本修复版下载, 修改 报错 Missing required configuration "partition.assignment.strategy" which has no default value. ".

2019-05-15

Spring 加密工具包(kylin密码加密工具包)

使用方法:用java命令 java -jar encryption.jar admin

2019-04-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除