qq_34124060
码龄9年
关注
提问 私信
  • 博客:34,827
    34,827
    总访问量
  • 30
    原创
  • 1,821,868
    排名
  • 6
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2016-02-29
博客简介:

qq_34124060的博客

查看详细资料
个人成就
  • 获得16次点赞
  • 内容获得3次评论
  • 获得22次收藏
创作历程
  • 1篇
    2021年
  • 5篇
    2019年
  • 9篇
    2018年
  • 26篇
    2017年
成就勋章
TA的专栏
  • springboot
    6篇
  • java闲聊
  • 第三方
    4篇
  • java基础
    5篇
  • LintCode算法题
    7篇
  • linux
    3篇
  • 啥都不是
  • hadoop
    1篇
  • hive
    3篇
  • python
    2篇
  • clouder manager
    1篇
  • Impala
    1篇
  • Mysql
    2篇
  • Redis
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Iceberg - 打造新一代数据湖技术

| 导语 新型数据湖框架是在大数据技术经历了10余年的沉淀之后,又一项业界炙手可热的技术。当前,业界涌现了一批优秀的开源框架,例如:Iceberg, Hudi, Delta Lake等。该技术可以解决大数据领域长期的流批作业混合(lambda架构)的业务痛点,包括:上游数据导入与下游分析作业的schema规范与对齐,数据写入的ACID保证,数据变更(Update, Delete等)操作,以及频繁数据导入造成的海量小文件等。TEG数据平台部的数据湖团队自2019年上半年开始密切关注与调研业界最新的热点技术,结
转载
发布博客 2021.09.15 ·
1100 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

BitMap 的基本原理和实现

目录一、原理二、实现三、使用四、总结一、原理基本原理BitMap 的基本原理就是用一个 bit 来标记某个元素对应的 Value,而 Key 即是该元素。由于采用一 个bit 来存储一个数据,因此可以大大的节省空间。我们通过一个具体的例子来说明 BitMap 的原理,假设我们要对 0-31 内的 3 个元素 (10, 17,28) 排序,那么我们就可以采用 BitMap 方法(假设这些元素...
原创
发布博客 2019.05.05 ·
915 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

python常用魔法方法汇总

在python中,有一些内置好的特定的方法,这些方法在进行特定的操作时会自动被调用,称之为魔法方法,下面介绍几种常见的魔法方法。目录1、__init__2、__new__3、__class__4、__str__5、__del__6、__getattribute__7、__bases__8、__mro__9、__all__1、init初始化函数,在创建实例对象为其赋值时使用,在__new__之...
原创
发布博客 2019.05.04 ·
829 阅读 ·
5 点赞 ·
0 评论 ·
11 收藏

CMS 收集器

HotSpot JVM 的并发标记清理收集器 (CMS 收集器) 的主要目标就是:低应用停顿时间。该目标对于大多数交互式应用很重要,比如 web 应用。在我们看一下有关 JVM 的参数之前, 让我们简要回顾 CMS 收集器的操作和使用它时可能出现的主要挑战。就像吞吐量收集器 (参见本系列的第 6 部分),CMS 收集器处理老年代的对象, 然而其操作要复杂得多。吞吐量收集器总是暂停应用程序线程,并...
转载
发布博客 2019.02.12 ·
327 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Maven生成可以直接运行的jar包的多种方式

Maven可以使用mvn package指令对项目进行打包,如果使用java -jar xxx.jar执行运行jar文件,会出现"no main manifest attribute, in xxx.jar"(没有设置Main-Class)、ClassNotFoundException(找不到依赖包)等错误。要想jar包能直接通过java -jar xxx.jar运行,需要满足:1、在jar包...
转载
发布博客 2019.02.12 ·
162 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive窗口函数

建立一张测试表CREATE TABLE test (cookieid STRING, create_time STRING, pv INT) ROW FORMAT DELIMITEDFIELDS TERMINATED BY ',';查看表数据select * from test;+----------------+-------------------+----------+--+...
原创
发布博客 2019.02.01 ·
815 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Mysql事务隔离级别与MVCC的实现

事务是一组原子性的查询单元,这组查询单元执行要么全部成功,要么全部失败。如果其中有任何一条语句因为崩溃或者其他原因导致失败,那么事务中的其他查询也会随之失败。ACID特性MySQL中事务必须满足ACID特性:ACID表示:原子性(atomicity),一致性(consistency),隔离性(isolation)和持久性(durability)原子性:一个事务必须是一个不可分割的原子单元,...
原创
发布博客 2018.12.03 ·
1072 阅读 ·
4 点赞 ·
0 评论 ·
2 收藏

深入理解JVM内核----内存分配与回收策略

注:此处的JVM特指HOTSPOT虚拟机名词解释:GC:垃圾收集器Minor GC:新生代GC, 指的是发生在新生代的垃圾收集动作,Major GC/FULL GC: 发生在老年代的GC动作JVM中堆空间分代JVM中将堆空间分为新生代和老年代,新生代又被分为1个Eden区和两个Survivor区(ToSpace和FromSpace)。为什么要分代?分代的唯一理由是优化GC性能,...
原创
发布博客 2018.12.01 ·
354 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python 处理 Impala 日志

使用到的Url为: /clusters/{clusterName}/services/{serviceName}/impalaQueries需要导入的函数库:#encoding:utf-8import urllib.requestimport base64import jsonimport timeimport datetimeimport pytzimport py...
原创
发布博客 2018.06.26 ·
954 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

最大子序和

给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。 示例: 输入: [-2,1,-3,4,-1,2,1,-5,4], 输出: 6 解释: 连续子数组 [4,-1,2,1] 的和最大,为 6。class Solution { private int max = 0; public int maxSubArray(in...
原创
发布博客 2018.06.12 ·
660 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive数据优化

影响Mapper的数量 1)文件数量 2)文件大小,根据下面参数进行切割 set mapred.max.split.size=128000000影响Reducer数量 mapred.reduce.tasks(强制指定reduce的任务数量) hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)...
原创
发布博客 2018.06.12 ·
294 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive参数调优

Map Reduce数量相关 数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize)) set mapreduce.input.fileinputformat.split.maxsize=750000000;单个reduce处理的数据量 (影响reduce的数量) ...
原创
发布博客 2018.06.12 ·
1360 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop基本命令

用户命令distcp 用于大规模集群内部和集群之间拷贝的工具, 使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成 把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝 命令行中可以指定多个源目录: bash$ hadoop distcp hdfs://nn1:8020/foo/a \ hdfs://...
原创
发布博客 2018.02.24 ·
302 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

shell-管道命令

cut 将一段信息的某一段“切”出来,处理得信息是以“行为单位” 参数: -d:后面接分隔字符,与-f一起使用 -f:依据-d的分隔字符将一段信息切割为数段,用-f取出第几段的意思 -c:以字符为单位取出固定字符区间 echo $PATH | cut -d ‘:’ -f 3,5 以 :为分隔,取出第3和第5个字段echo $PATH | cut -c 12- echo $PAT...
原创
发布博客 2018.02.24 ·
564 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

vim常用快捷键

基本上vi可分为三个模式,分别是一般模式、命令行模式和编辑模式。三个模式的作用分别如下。 一般模式:打开vi时即为一般模式,可以进行read操作,也可以复制、粘贴文件数据。编辑模式:在一般模式下输入’i,I,o,O,a,A,r,R’键后可切换进入编辑模式,不同按键有不同功能,分别是:i,I: 进入插入模式,i为从光标所在处插入,I为目前所在行的第一个非空格字符处开始插入。a,A:
原创
发布博客 2018.02.06 ·
169 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

深入了解Java虚拟机——JVM内存分配

相关引用: 字符串编译期与运行期分析及字符串常量池 Java虚拟机—–方法区和运行时常量池 JVM-String常量池与运行时常量池 深入理解Java虚拟机笔记—运行时栈帧结构Java虚拟机将在Java程序运行过程中将内存分为不同的数据区域,每个区域都有自己的用途以及生命周期,大致划分如下图: 1. 程序计数器(线程私有)占用很小的内存,可以看做当前线程执行的行号指示器,可以根据程序计
原创
发布博客 2017.09.21 ·
314 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

链表求和 II

假定用一个链表表示两个数,其中每个节点仅包含一个数字。假设这两个数的数字顺序排列,请设计一种方法将两个数相加,并将其结果表现为链表的形式。/** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) {
原创
发布博客 2017.07.03 ·
482 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

将二叉查找树转换成双链表

/** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { * val = x; * next = null; * } * } */p
原创
发布博客 2017.06.29 ·
292 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

二叉树的路径和

/** * Definition of TreeNode: * public class TreeNode { * public int val; * public TreeNode left, right; * public TreeNode(int val) { * this.val = val; * this.left =
原创
发布博客 2017.06.29 ·
229 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

字符串置换

规则:给定两个字符串,请设计一个方法来判定其中一个字符串是否为另一个字符串的置换。置换的意思是,通过改变顺序可以使得两个字符串相等。第一次写的办法:public class Solution { /** * @param A a string * @param B a string * @return a boolean */ public b
原创
发布博客 2017.06.26 ·
266 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多