自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Eclipse解决Toolbars在高分屏下图标太小的方法

右键=>eclipse=>属性=>“兼容性”选项卡=>“设置”项=>更改高DPI设置=>搞DPI缩放替代=>勾选“替代高DPI缩放行为”=>“缩放执行”下拉框中选择“系统”=&g...

2019-10-12 15:35:55

阅读数 2

评论数 0

转载 Spark Streaming使用Kafka保证数据零丢失

spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件: 数据输入需要可靠的sources和可靠的receivers 应用metadata必须通过应用driver checkpoint WAL(write ahead log) 可靠的sources和rec...

2019-09-04 22:25:02

阅读数 18

评论数 0

原创 大数据面试题汇总

1.where,group by谁先执行 总结一下hive语句的执行顺序。 在hive的执行语句当中的执行查询的顺序: 这是一条sql: select … from … where … group by … having … order by … 执行顺序: from … where … sele...

2019-09-02 05:03:47

阅读数 40

评论数 0

转载 ZooKeeper故障处理

Zookeeper一般会出现以下两种故障: 1.Zookeeper进程挂掉; 2.Zookeeper进程还在,但不提供服务;(提示:ThisZooKeeperinstanceisnotcurrentlyservingrequests) Zookeeper故障监控: 1.针对zookeepe...

2019-08-31 16:44:15

阅读数 31

评论数 0

转载 Spark之RDD弹性特性

RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面。 1.自动进行内存和磁盘数据存储的切换   Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下的数据,也能计算内存放不下的数据。如果实际数据大于内存,则要考虑数据放置策略和优化算法。当应用程序内存...

2019-08-29 06:55:08

阅读数 23

评论数 0

原创 java内存结构

程序计数器:程序计数器是指CPU中的寄存器,它保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要从程序计数器中得到当前需要执行的指令所在存储单元的地址,然后根据得到的地址获取到指令,在得到指令之后,程序计数器便自动加1或者根据转移指针得到下...

2019-08-26 02:52:04

阅读数 17

评论数 0

原创 java内存泄漏及预防总结

Java中的内存泄露,广义并通俗的说,就是:不再会被使用的对象的内存不能被回收,就是内存泄露。 垃圾回收的时机: 给对象赋予了空值null,之后再没有调用过。 给对象赋予了新值,这样重新分配了内存空间。 内存泄漏的场景: 1、长生命周期的对象持有短生命周期的引用,就很可能会出现内存泄露。 例...

2019-08-26 01:22:54

阅读数 13

评论数 0

原创 23种设计模式简介

零、设计模式的原则 1.开闭原则:软件的维护性,复用性,扩展性。 2.里氏替换原则:子类可以扩展父类的功能,但不能改变父类原有的功能。也就是说:子类继承父类时,除添加新的方法完成新增功能外,尽量不要重写父类的方法。 3.依赖倒置原则:高层模块不应该依赖低层模块,两者都应该依赖其抽象;抽象不应该依赖...

2019-08-21 05:40:10

阅读数 19

评论数 0

原创 mysql及sql优化

一、mysql优化: 1.查询优化 慢查询日志开启并用mysqldumpslow分析 使用EXPLAIN查看SQL执行计划,用法:EXPLAIN SELECT * FROM products 2.使用索引 B-Tree索引 R-Tree索引在mysql很少使用,支持该类型的存储引擎只有MyIS...

2019-08-18 08:09:39

阅读数 21

评论数 0

原创 jvm优化概览

1.今日内容 了解下我们为什么要学习JVM优化 掌握jvm的运行参数以及参数的设置 掌握jvm的内存模型(堆内存) 掌握jamp命令的使用以及通过MAT工具进行分析 掌握定位分析内存溢出的方法 掌握jstack命令的使用 掌握VisualJVM工具的使用 我们为什么要对jvm做优化? 运行的应用...

2019-08-17 06:22:44

阅读数 24

评论数 0

原创 java并发包java.util.concurrent介绍

java.util.concurrent是并发包的目录。 阻塞队列 BlockingQueue接口通常用于一个线程生产对象,而另外一个线程消费这些对象的场景。该接口的具体实现有ArrayBlockingQueue,DelayQueue,LinkedBlockingQueue,PriorityBl...

2019-08-16 07:28:31

阅读数 18

评论数 0

原创 HIVE中join、semi join、outer join举例详解

首先,hive中,left join与left outer join等价。 举例子: hive> select * from zz0; 111111 222222 888888 hive> select * from zz1; 111111 333333...

2019-08-15 04:21:22

阅读数 12

评论数 0

原创 mapreduce自定义数据类型代码实现

package cn.itcast.mapreduce; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Writable;...

2019-08-13 02:43:52

阅读数 9

评论数 0

原创 mapreduce wordcount完整代码

map: package cn.itcast.mapreduce; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; ...

2019-08-13 01:55:04

阅读数 11

评论数 0

转载 Spark Streaming与Storm对比

对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算...

2019-08-08 05:32:36

阅读数 15

评论数 0

原创 常用的选择排序算法

一、排序 1.选择排序(比较次数n2/2,交换次数n,原理是每次都找到最小的元素与第一个元素交换位置) int[] sort(int[] a){ //用于储存最小值 int b = 0; int N = a.length; for(int i=0; i<N...

2019-08-07 06:56:31

阅读数 18

评论数 0

原创 数据仓库分层

为什么要对数据仓库分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据; 如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相...

2019-07-31 02:38:35

阅读数 23

评论数 0

原创 多线程常用知识点

多线程并发执行可以提高程序的效率,同时完成多项工作。 多线程的应用场景:迅雷下载多个资源,服务器处理多个请求,qq多人视频。 并行需要多核cpu,并发不需要。 java程序的运行原理: java命令会启动jvm虚拟机,等于启动了一个进程(应用程序)。该进程会启动一个主线程,主线程去调用入口类的m...

2019-07-25 03:16:20

阅读数 17

评论数 0

转载 解决数据倾斜的两篇文章

第一篇文章: 发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分...

2019-07-23 04:11:45

阅读数 53

评论数 0

转载 解决 spark 中的数据倾斜问题

发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分析,判断是哪些 ...

2019-07-23 01:41:25

阅读数 34

评论数 0

提示
确定要删除当前文章?
取消 删除