自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 over 与lateral view 的hive、spark sql执行计划

建表语句create table test_over ( user_id string, login_date string)COMMENT '测试函数使用,可以删除' row format delimited fields terminated by '\t';over 执行计划sparkspark-sql> explain select > user_id > ,login_date

2022-03-10 15:02:05 2683

原创 Filebeat 模块与配置

FileBeat-Log 相关配置指南:https://www.cyhone.com/articles/usage-of-filebeat-log-config/配置详解:https://www.cnblogs.com/cjsblog/p/9495024.html重点解释参数:ignore_olderignore_older 表示对于最近修改时间距离当前时间已经超过某个时长的文件,只暂时不进行处理。默认值为 0,表示禁用该功能。注意:ignore_...

2021-08-18 16:22:08 722

原创 代码示例------elasticSearch collapse, aggr, MultiSearch

package com.xxxx.rec.goodsguesslike.impl;import com.alibaba.dubbo.config.annotation.Service;import com.gome.boot.common.component.ConfigTool;import com.gome.rec.goodsguesslike.helper.RestHighLevelClientHelper;import com.gome.rec.internal....

2021-07-29 14:19:14 335

原创 elasticSearch源码解析与优化(---暂存)

https://weread.qq.com/web/appreader/f9c32dc07184876ef9cdeb6k65132ca01b6512bd43d90e3?wtheme=white&wfrom=app&wvid=296044107&scene=bottomSheetShare

2021-07-28 11:29:04 108

原创 java原生api 访问url

实现方式有多种,下面演示的是 java原生api方式工作实际使用: diamond配置中心 log.info("........................................................suspend all consuemrs........................................................"); String ips = diamondConfigurationManager.getConf...

2021-07-28 09:42:48 370

转载 Flink kafka source & sink 源码解析

摘要:本文基于 Flink 1.9.0 和 Kafka 2.3 版本,对 Flink Kafka source 和 sink 端的源码进行解析,主要内容分为以下两部分:1.Flink-kafka-source 源码解析流程概述 非 checkpoint 模式 offset 的提交 checkpoint 模式下 offset 的提交 指定 offset 消费2.Flink-kafka-sink 源码解析初始化 Task运行 小结1.Flink-kafka-source 源码...

2021-06-25 11:30:04 372

原创 RocketMQ顺序消费

rocketmq怎么保证队列完全顺序消费? - 中间件兴趣圈的回答 - 知乎 https://www.zhihu.com/question/30195969/answer/1698410449顺序消费性能优化、队列变更导致非顺序问题如何处理?https://zhuanlan.zhihu.com/p/380919797...

2021-06-24 16:32:00 60

原创 Elasticsearch 5.x 源码分析(3)from size, scroll 和 search after

转载自链接,有修改:https://www.jianshu.com/p/91d03b16af77前两天突然被业务部的同事问了一句:“我现在要做搜索结果全量导,该用哪个接口,性能要好的?”之前虽然是知道这三种方法都是可以做分页的深度查询,但是由于具体的代码实现细节没看过,因此心里一下子就没有了底气,只好回答说先看看。from sizefrom size是最家喻户晓的,也是最暴力的,需要查询from + size 的条数时,coordinate node就向该index的其余的shards 发...

2021-06-17 21:56:28 388 1

原创 注意ES的默认排序和慎用_doc排序

这两天遇到了一个坑,就是ES的默认排序,对于我们有时候直接把ES当数据库来玩的时候,往往返回的结果的_score都是0, 而ES默认的排序,恰恰就是按 _score的desc。那么,在全部doc的_score 都是0分的时候,分页就会错乱,有时候出现在第一页的结果很可能会重复出现在第二页,第三页 (取决于当时shards 返回的结果的顺序。好了,有些人会觉得,为了提高性能,又不care排序的顺序的话,可能会立刻想到用_doc排序。包括我也是这么想的,那么结果告诉你,这也是会有问题的。我们.

2021-06-17 19:46:21 2177

原创 spark sql 数据倾斜处理案例

1. 数据量大,内存占用过高;https://zhuanlan.zhihu.com/p/103128296新增优化策略(可思考):将数据集根据group分组,每个任务处理10个group,共计需要1500个task,每个组的数据将item-id和feature读取后进行广播(也可存成map),这样一个task最多大约占用(8000+8000)*10*8k=1.22G数据;然后只读item-id和group,需要的时候现计算现取数;即可保守配置成 50executor,并行度30,堆内内存60g,

2021-05-25 21:52:44 234

转载 从 Paxos 到 Raft,分布式一致性算法解析

转载自https://mp.weixin.qq.com/s/WJrQt879L2rGtDHZwyzoZA导语 |后台服务架构经过了集中式、SOA、微服务和服务网格四个阶段,目前互联网界大都使用微服务和服务网格。服务从集中式、中心化向分布式、去中心化不断演进,服务也变得更灵活,能够自动扩缩容、快速版本迭代等。但是分布式架构也将集中式下一些问题放大,比如通信故障、请求三态(成功、失败、超时)、节点故障等,这些问题会导致一系例数据不一致的问题,也是计算机领域的老大难问题。本文将与大家一...

2021-05-14 10:56:25 156

转载 不可不说的Java“锁”事

转载自美团技术团队------->https://tech.meituan.com/2018/11/15/java-lock.html前言Java提供了种类丰富的锁,每种锁因其特性的不同,在适当的场景下能够展现出非常高的效率。本文旨在对锁相关源码(本文中的源码来自JDK 8和Netty 3.10.6)、使用场景进行举例,为读者介绍主流锁的知识点,以及不同的锁的适用场景。Java中往往是按照是否含有某一特性来定义锁,我们通过特性将锁进行分组归类,再使用对比的方式进行介绍,帮助大家更快捷的理解

2021-05-13 09:14:11 63

原创 基数估计算法

动画可交互demo:Sketch of the Day: HyperLogLog — Cornerstone of a Big DataInfrastructureredis源码阅读—hyperloglog(基数统计)----结合网页独立访问量和redis源码看hyperloglog基数估计算法Linear Counting---->LogLog Counting---->HyperLogLog Counting 和 Adaptive Counting----...

2021-04-29 13:26:11 126

原创 Yarn ContainerExecutor的三种模式

YARN源码解析(7)-NodeManager中三种ContainerExecutor模式简介Yarn ContainerExecutor 中的DefaultContainerExecutor与LinuxContainerExecutor配置与使用 DefaultContainerExecutor: 简称 DCE , 如其名,是默认的 ContainerExecutor 实现。 如果用户未指定 ContainerExecutor 的具体实现,NM 就会使用它。 DCE 直接使用 bas...

2021-04-28 13:44:41 375

原创 密码学之—Hash&对称

概述1.对称加密:指加密和解密使用相同密钥的加密算法,它用来对敏感数据等信息进行加密。常用的包括(DES、3DES、AES、DESX、Blowfish、RC4、RC5、RC6)2.Hash:也称为散列算法,特别的地方在于它是一种单向算法,用户可以通过Hash算法对目标数据生成一段特定长度(128字节)的唯一hash值,但不能通过hash值重新获得目标数据,因此hash算法常用在不可还原的密码存储,信息完整性校验等。常用的包括(MD2、MD4、MD5、HAVAL、SHA、SHA-1、HMAC、HM..

2021-04-28 10:29:32 328

原创 谈谈基于Kerberos的Windows Network Authentication

[转载]谈谈基于Kerberos的Windows Network Authentication - Part I[转载]谈谈基于Kerberos的Windows Network Authentication - Part II[转载]谈谈基于Kerberos的Windows Network Authentication - Part III

2021-04-27 19:08:26 71

转载 Hive metastore源码阅读

Hive metastore源码阅读(一)https://www.cnblogs.com/yangsy0915/p/7367717.htmlHive metastore源码阅读(二)https://www.cnblogs.com/yangsy0915/p/7393162.htmlHive metastore源码阅读(三)https://www.cnblogs.com/yangsy0915/p/7503033.html...

2021-01-07 16:39:39 445

原创 hive sql判断reducer个数---含源码

https://blog.csdn.net/qq_23596677/article/details/99587559

2020-12-26 13:48:06 295

原创 hive 执行计划 --- 收集于网络中的各个博客

1. 源码解析的概要流程 https://www.cnblogs.com/geektcp/p/10006340.html2.Hive 执行过程实例分析 https://www.cnblogs.com/frankdeng/p/9308654.html https://www.cnblogs.com/cxzdy/p/4936909.html3.

2020-12-26 10:28:09 140

转载 ES分布式架构及底层原理2018-06-12

https://segmentfault.com/a/1190000015256970

2020-12-16 17:20:18 72

转载 Elasticsearch集群管理之1——如何高效的添加、删除节点?

引用地址: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484242&idx=1&sn=8215077417867e3eb6311665589f569c&chksm=eaa82b7adddfa26c97a7c417f0d8cc42e74d5ebd9360ba6013392db3557e89a8ddba8cce1a68&scene=21#wechat_redirect1、问题抛出1.1 新增节点

2020-11-17 18:03:11 404

原创 Hive优化案例---经典

https://www.cnblogs.com/hustzzl/p/7888001.html

2020-10-24 23:34:16 165

转载 花了一个星期,我终于把RPC框架整明白了!

转载自 https://developer.51cto.com/art/201906/597963.htm

2020-10-03 17:29:18 806

原创 Mysql性能优化:为什么你的count(*)这么慢?

https://www.cnblogs.com/Chenjiabing/p/12625559.html

2020-09-22 12:48:09 644

转载 shuffle过程(以部分算子为例)————引自它处

链接:http://www.360doc.com/content/17/0607/12/14808334_660749414.shtml目录结构如下:shuffle write:shuffle read: 1.reduceByKey 2.groupByKey 3.distinct 4.cogroup 5.intersection / join 6.sortyByKey 7.coalesceShuffle read 中的HashMap 1.AppendOnlyMap

2020-07-19 11:08:58 122

转载 shell 脚本里的 特殊字符 $(( ))、$( )、``与${ }的区别

shell 脚本里的 特殊字符 $(( ))、$( )、``与${ }的区别 转载自: https://www.cnblogs.com/chenpython123/p/11052276.htmlshell 脚本里的命令执行1.在bash中,$( )与` `(反引号)都是用来作命令替换的。  命令替换与变量替换差不多,都是用来重组命令行的,先完成引号里的命令行,然后将其结果替换出来,再重组成新的命令行。$( )与``在操作上,这两者都是达到相应的效果,但是建议使用$( ),理由如下..

2020-06-17 22:19:57 2241

转载 kill 和killall----杀死进程

kill 和killall----杀死进程转载自:https://www.cnblogs.com/luying--lulu/p/5283741.html1、根据进程ip查看进程名Liunx中 通过进程名查找进程PID可以通过 pidof [进程名] 来查找。反过来 ,通过PID查找进程名则没有相关命令。但在linux根目录中,有一个/proc的VFS(虚拟文件系统),系统当前运行的所有进程都对应于该目录下的一个 以进程PID命名的文件夹 ,其中存放进程运行的N多信息。其中有一个status.

2020-05-28 12:35:11 490

原创 log4j2配置文件log4j2.xml详解(转载)

此博文转载自阿豪聊干货的“聊一聊log4j2配置文件log4j2.xml”,详情请访问博文地址:https://www.cnblogs.com/hafiz/p/6170702.html

2020-05-20 19:37:52 221

原创 Maven使用之packaging篇----pom、jar、war

转载自它处,有修改。综述: 项目的打包类型:pom、jar、war 1.pom工程:用在父级工程或聚合工程中。用来做jar包的版本控制。 2.war工程:将会打包成war,发布在服务器上的工程。如网站或服务。 3.jar工程:将会打包成jar用作jar包使用,packaging默认类型。项目中一般使用maven进行模块管理,每个模...

2020-05-05 12:07:32 8391

转载 IDEA 错误: 找不到或无法加载主类 解决方法

在IDEA的使用过程中,经常断掉服务或者重启服务,最近断掉服务重启时突然遇到了一个启动报错:错误:找不到或无法加载主类猜测:1,未能成功编译; 尝试:菜单---》Build---》Rebuild Prodject 结果:启动服务仍然报同样的错误 2,缓存问题; 尝试:菜单---》File...

2020-04-15 08:40:36 664

转载 1个英文字母、1个汉字、标点符号各占几个字节

不同编码方式,占用的字节是不同的:1,ASCII码:一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字度节的空间。2,UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节3,Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。中文标点占两个字节,英文标点占两个字节...

2020-04-09 16:02:07 22220

原创 算法的时间复杂度与空间复杂度---举例分析

一、 算法算法的定义是这样的:解题方案的准确而完善的描述,是一系列解决问题的清晰指令。巴拉巴拉的,虽然是一小句但还是不想看(题外话:有时候吧专业名词记下来面试的时候还是挺有用的),其实就是解决一个问题的完整性描述。只不过这个描述就可能是用不同的方式或者说是“语言”了。- 算法的效率既然算法是解决问题的描述,那么就像一千个人眼中有一千个阿姆雷特他大姨夫一样,解决同一个问题的办法也是多种...

2020-03-25 19:04:56 1937

转载 计算机编码发展史(ANSI、GBK、GB2312、GB18030、 UNICODE、UTF-8)

这几个编码关键词是比较常见的,虽然我把我们放在了一起说,但并不意味这这几个东西是平级的关系。本部分的内容,引用自网络略有修改,不知原文出处,故无法署名。很久很久以前,一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物,他们把这称为”字节”。再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去,他们就把这机器称为”计算机...

2020-03-23 21:46:40 629

原创 java保留字还记得有哪些么?

保留字:从C++保留下来,但在java内现在还不是关键字,以后可能会用。例如:byValue、cast、future、 generic、 inner、 operator、 outer、 rest、 var 、 goto 、const...

2020-03-20 21:44:12 632

转载 回车与换行有啥区别?

关于换行和回车其实平时我们不太在意,所以关于两者的区别也不太清楚,在平时开发时可能会遇到一些文件处理的问题,放到不同的操作系统上出现各种坑。那么回车和换行到底有哪些区别呢?今天咱们就来总结一下。由来在计算机还没有出现之前,有一种叫做电传打字机(Teletype Model 33)的机械打字机,每秒钟可以打10个字符。但是它有一个问题,就是打完一行换行的时候,要用去0.2秒,正好可以打两个字...

2020-03-20 21:29:28 515

原创 变量运算在内存中是如何变化的?

普通变量赋值public class Test{ public static void main(String[] args){ int i = 10; int j = 20; j = i * j; }}其在内存中的变化可以分为四步,如下图(图中不同颜色对应不同的步骤)。简单来说:第1步: 内存中创建 i 和 j 两个变量,变量名(i和j)放在栈总,对其...

2020-03-20 08:45:53 518

原创 标志符的命名规则与规范

关键字 : 在java程序中有特殊含义作用的单词, 所有字母全部小写。保留字 : 从C++中保留下来的关键字, 在java中目前还不是关键字, 将来有可能是.标识符 : 标识某个东西的符号, 简单的来讲就是名字.定义合法标识符规则:由52个字母, 0~9 10个数字字符, _和$(尽量不要使用);数字不可以开头, 标识符3C 就是非法, C3是合法;不可以使用关键字和保留字, 但...

2020-03-19 11:42:18 1159

原创 核心机制、及程序执行过程

2种运行机制java虚拟机(JVM)垃圾回收机制 (GC)程序执行过程1、java(DOS)作用是创建一个JVM;2、类在类加载器中加载主类,并在主类中找到主方法(main),然后执行;3、方法执行完成后,进程结束,同时JVM销毁;...

2020-03-19 11:25:42 198

原创 计算机语言发展与Java语言8大特点

计算机语言发展第一代语言打孔机—纯机器语言直接面向硬件开发面向硬件开发第二代语言汇编面向CPU开发第三代语言C、Pascal、Fortran面向过程的语言面向OS(操作系统)开发第四代语言Java语言–跨平台、面向对象编程面向JVM开发Java语言8大特点1、简单: 相对C语言来说 2、面向对象;3、分布式: 利于网络多台主机协作;4、健壮: ...

2020-03-19 11:12:10 215

原创 DOS常用命令

DOS命令常用命令释义dir查看当前文件夹内的文件目录cd进入目录cd. .返回上一层/退出本目录cd\返回到根目录md创建目录rd删除目录echo创建文件及其内容,格式:echo (内容)>((文件名).(文件类型)。如echo helloWorld > 新建文本.txtdel删除文件(文件夹除外)...

2020-03-17 08:59:31 146 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除