自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

[email protected]

技术让人走的更远,思想让人走的更高

  • 博客(85)
  • 收藏
  • 关注

原创 jackson-databind 版本升级遇到的问题

本想着此次升级会很简单,但是在操作后发现有点想的简单了。1、spring-boot-starter-parent 导致的jackson-databind-2.8.11.2 -> 2.9.10.6Caused by: java.lang.NoClassDefFoundError: Could not initialize class com.fasterxml.jackson.databind.ObjectMapper参考自 SpringBoot 因为jackson版本问题启动失败2、e.

2020-09-15 22:25:43 7019

翻译 Impala JDBC 的使用

以下内容翻译自:https://www.simba.com/products/Impala/doc/v2/JDBC_InstallGuide/content/jdbc/intro.htm文章目录1、建立连接 URL1.1 简单使用1.2 增加配置1.3 案例1.4 注意2、配置身份验证2.1 不使用身份验证2.2 使用 Kerberos2.3 使用用户名2.4 使用用户名和密码(LDAP)3、配置属性说明3.1 AuthMech3.2 PWD & UID3.3 UseSasl1、建立连接 .

2020-07-26 11:13:21 1558 1

转载 Java 中的 String 有没有长度限制?

以下内容摘录自:Java 中的 String 有没有长度限制?目录String 的长度限制常量池限制运行期限制总结String 的长度限制想要搞清楚这个问题,首先我们需要翻阅一下 String 的源码,看下其中是否有关于长度的限制或者定义。String 类中有很多重载的构造函数,其中有几个是支持用户传入 length 来执行长度的:public String( byte bytes[], int offset, int length)可以看到,这里面的参数 length 是使用 int 类.

2020-07-12 12:01:06 344 1

原创 读书摘录——《数学之美》

以下内容摘录自:《数学之美》—吴军 第二版第一版序言牛顿是伟大的物理学家和数学家,他在《自然哲学的数学原理》中叙述了四条法则。其中有“法则1:除那些真实而已足够说明其现象者外,不必去寻找自然界事物的其他原因。”这条法则后来被人们称作为“简单性原则”。正如爱因斯坦所说:“从希腊哲学到现代物理学的整个科学史中,不断有人力图把表面极为复杂的自然现象归结为几个简单的基本概念和关系。这就是整个自然哲学的基本原理。”这个原理也贯穿了《数学之美》本身。WWW的发明人蒂姆•伯纳斯•李谈到设计原理时说过:“简单性和.

2020-07-06 23:29:34 719

转载 hbase shell 支持历史命令查看

转载自:https://www.jianshu.com/p/96fd07ff4eafvim ~/.irbrcrequire 'irb/ext/save-history'IRB.conf[:SAVE_HISTORY] = 100IRB.conf[:HISTORY_FILE] = "#{ENV['HOME']}/.irb-save-history"Kernel.at_exit do IRB.conf[:AT_EXIT].each do |i| i.call en.

2020-07-02 18:53:36 1002

原创 Hive 调整 Map 的个数

摘录自《Hive 性能调优实战》在调优时不希望生成太多的 Map,而把计算任务的等待时间都耗费在 Map 的启动上;或者不希望生成太多的 Map 对某个文件进行操作,以免引起资源的争用。这时候就需要对 Map 进行控制。在 Hive 中配置“set mapred.map.tasks=task 数量”无法控制 Map 的任务数,调节 Map 任务数需要一套算法,该算法也和 InputFormat 有密切的关系,具体如下:在默认情况下 Map 的个数 defaultNum = 目标文件或数据的总大小 .

2020-06-13 17:53:13 2345

原创 HBase 优化拆分和合并

摘录自《HBase 权威指南》HBase 内置的处理拆分和合并的机制一般是合理的,并且它们按照预期处理任务,但在某些情况下,还是需要按照应用需求对这部分功能进行优化以获得额外的性能改善。管理拆分通常 HBase 是自动处理 region 拆分的:一旦它们达到了既定的阈值,region 将被拆分成两个,之后它们可以接受新的数据并继续增长。这个默认行为能满足大多数用例的需求。但是其中一种可能出现问题的情况被称为“拆分/合并风暴”:当用户的 region 大小以恒定的速度保持增长时,region 拆分会.

2020-06-09 22:23:14 1006

原创 【力扣】5429. 数组中的 k 个最强值

文章目录求助!!!5429. 数组中的 k 个最强值 题目难度Medium提交记录求助!!!以下是 力扣 第 192 场周赛 第二题的解题,感觉自己思路没错,若有不正确的思路请大佬们指出,可以优化的地方请大佬们帮帮忙,谢谢蟹蟹!5429. 数组中的 k 个最强值 题目难度Medium给你一个整数数组 arr 和一个整数 k 。设 m 为数组的中位数,只要满足下述两个前提之一,就可以判定 arr[i] 的值比 arr[j] 的值更强:|arr[i] - m| > |arr[j] - m|

2020-06-07 12:04:36 162

原创 认识布隆过滤器(Bloom Filter)

摘录自《程序员代码面试指南》如果遇到网页黑名单系统、垃圾邮件过滤系统、爬虫的网址判重等题目,又看到系统容忍一定程度的失误率,但是对空间要求比较严格,那么很有可能是需要关于布隆过滤器的知识。一个布隆过滤器精确地代表一个集合,并可以精确判断一个元素是否在集合中。注意,只是精确代表和精确判断,到底有多精确呢?则完全在于你具体的设计,但想做到完全正确是不可能的。布隆过滤器的优势就在于使用很少的空间就可以将准确率做到很高的程度,该结构由 Burton Howard Bloom 于 1970 年提出。首先介绍哈.

2020-06-06 10:41:18 210

原创 Hive 分区和桶

摘录自《Hadoop 权威指南》Hive 把表组织成分区(partition)。这是一个根据分区列(partition column,如日期)的值对表进行粗略划分的机制。使用分区可以加快数据分片(slice)的查询速度。表或分区可以进一步分为桶(bucket)。它会为数据提供额外的结构以获得更高效的查询处理。例如,通过根据用户 ID 来划分桶,可以在所有用户集合的随机样本上快速计算基于用户的查询。1. 分区以分区的常用情况为例。考虑日志文件,其中每条记录包含一个时间戳。如果根据日期来对它进行分区.

2020-05-30 14:15:29 244

原创 Hive 存储格式

摘录自《Hadoop 权威指南》Hive 从两个维度对表的存储进行管理,分别是行格式(row format)和文件格式(file format)。行格式指行和一行中的字段如何存储。按照 Hive 的术语,行格式的定义由 SerDe 定义。SerDe 是“序列化和反序列化工具”(Serializer-Deserialize)的合成词。当作为反序列化工具进行使用时,也就是查询表时,SerDe 将把文件中字节形式的数据行反序列化为 Hive 内部操作数据行时使用的对象形式。使用序列化工具时,也就是执行 I.

2020-05-27 22:36:15 212

原创 Hadoop 压缩

摘录自《Hadoop 权威指南》—— 第四版文件压缩有两种好处:减少存储文件所需要的磁盘空间,并加速数据在网络和磁盘上的传输。这两大好处在处理数据时相当重要,值得仔细考虑在 Hadoop 中文件压缩的用法。有很多种不同的压缩格式、工具和算法,它们各有千秋。如下表列出了与 Hadoop 结合使用的常见压缩方法:压缩格式centered 工具算法文件扩展名是否可切分DEFLATE无DEFLATE.deflate否gzipgzipDEFLATE.gz否.

2020-05-20 22:02:05 142

原创 Hadoop 数据完整性

摘录自《Hadoop 权威指南》—— 第四版Hadoop 用户希望系统在存储和处理时不会丢失或损坏任何数。尽管磁盘或网络上的每个 I/O 操作不太可能将错误引入自己正在读/写的数据中,但是如果系统中需要处理的数据量大到 Hadoop 的处理极限时,数据被损坏的概率还是很高的。监测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum)并在数据通过一个不可靠的通道进行传输时再次计算校验和,这样就能发现数据是否损坏。如果计算得到的校验和和原来的校验和不匹配,就认为数据已损坏。注意.

2020-05-12 23:27:16 267

原创 Hive: 内部表与外部表的区别探索

文章目录一、准备工作1、文件内容2、建表3、查看 hdfs二、文件不在HDFS上1、load data2、查看文件3、删除表,查看文件是否还存在4、结论三、文件在HDFS上0、复制数据1、load data1.1 内部表1.2 外部表2、删除表,查看文件是否还存在3、结论四、最终结论一、准备工作1、文件内容文件不在HDFS上:/home/zhangsan/test.txt文件在HDFS上...

2020-04-29 22:52:24 169

转载 读书摘录——《浪潮之巅》

以下内容摘录自:《浪潮之巅》—吴军 第三版P13花旗银行一位有30年资本管理经验的副总裁对我讲,评价一家上市公司的好坏,其实只要看那些最优秀的人是流进这家公司,还是流出这家公司即可。P20公司创始人的灵魂常常会永久的留在这家公司,即使他们已经离去。P133我非常喜欢黑格尔的一句话:凡是现实的都是合理的,凡是合理的都是现实的。(All that is real is r...

2020-03-08 15:48:14 510 1

原创 Hive - 分区表的探索

以下内容参考自《Hive编程指南》1、简单理解简单理解,分区就是不同的目录结构,表是最外层的目录,表里面的分区对应表目录里的各个子目录,例如:....../employees/country=CA/state=AB.../employees/country=CA/state=BC....../employees/country=US/state=AL.../employees/...

2019-11-03 16:06:32 150

原创 Shell 解决周不跨月的问题

前提:计算上周、上月的内容,比如总笔数、交易总金额在处理需求时,需求方提出了一个周不能跨月的要求,举个例子:20190527~20190602是一个自然周 那么要求是在20190603那天计算上周时,只计算20190601~20190602区间的,20190527~20190531这几天并入上一个月的计算思路:1、shell生成的上周周一、上周周日的时间;2、...

2019-06-22 10:21:09 386 4

原创 在Hive中使用过的函数记录(百分比、截取字符串、分组TOP N、日期转换、日期是第几周)

1、显示百分比形式-- 保留小数点后四位 * 100,连接%concat(round(x/y, 4) * 100, '%')例: 2、取出日期年月-- 截取字符串substr(ord_dt, 1, 6)例: 3、分组后,从每个组内取出各自的TOP Nrow_number() OVER (partition by COL1 order ...

2019-04-10 11:44:01 19398

原创 Hive 用户自定义函数 描述信息的生成

参考自《Hive编程指南》 —— 人民邮电出版社@Description(name = "udf_endecode", value = "DES encryption and decryption, use the keyword EXTENDED for specific use", extended = "Example: \n" + "> sele...

2019-03-26 15:36:57 397

原创 常见Filter的使用

以下内容参考自《HBase权威指南》 —— 代志远 刘佳 蒋杰 译CompareFilter中的比较运算符 比较器(基于CompareFilter的过滤器提供的)BinaryComparator,使用Bytes.compareTo()比较当前值与阈值BinaryPrefixComparator,使用Bytes.compareTo()进行匹配,但是是从左端开始前缀匹配...

2019-02-26 11:10:59 461

原创 创建分支并且将分支以及新增文件git到github上

环境:idea一、创建新的分支并提交到github上  参考自:https://blog.csdn.net/daerzei/article/details/795304180、创建分支,git branch licj 1、查看分支,git branch2、切换到分支,git checkout licj3、将分支推送到github上,git push origin H...

2019-02-20 18:14:22 272

原创 Linux下常见日期命令

有关日期样式的显示,有时需要形如2019-02-12的,可以将%Y%m%d修改为%Y-%m-%d -- 今天日期 date +%F-- 今天日期字符串形式 date +%Y%m%d-- 几天前 date +%F -d "? day ago"-- 几天前字符串形式 date +%Y%m%d -d "? day ago"-- 上一月 date +%Y%m -d ...

2019-02-12 11:19:36 165

原创 windows7下安装hadoop2.6.1

以下步骤是成功部署之后,摘录整理的,若读者根据以下步骤不成功,请重新搜索。===========================================================================================安装步骤参考自:https://www.cnblogs.com/wuxun1997/p/6847950.html 1、hadoo...

2019-01-17 09:36:35 430

原创 大四寒假实习——面试总结

 只有经历过才会有感受,人想要真正成长,必须自己独立的去做一切之前没有做过的事。 零、面试准备(关于Java和大数据方向)1、大学专业课程的准备(有面试官会问你大学课程什么掌握的最好,来,咱们细聊)2、算法方面的练习(这个本人感觉一时半会是提升不了的,得经常练习)3、项目的介绍4、针对自己的简历复习,针对公司外放的招聘要求复习Java开发方向:重点是Spring的,...

2018-12-29 18:06:51 2423

转载 SQL优化

以下内容参考自http://www.jfox.info/2017/SQL-you-hua.html1、为什么要进行sql优化?在学习过程中,对于查询sql语句,是很难体会到sql语句的性能优劣。但是在实际生产中,响应速度是数据库最为重要的问题之一,其中一个很重要的就是关于sql语句的优化。2、sql语句编写注意点在where子句中,即使某些列存在索引,但是编写了劣质的sql,导致运...

2018-12-25 19:32:39 109

原创 有关大数据的一些知识理解

1、简要说明大数据下的5个VVolumn-大量:形容数据的量Velocity-高速:形容数据增长速度Variety-多样:形容数据类型是多样的Value-价值密度:形容数据有价值的部分是很小的Veracity-真实:形容数据都是真实发生的2、大数据的特点TB、PB级别的数据持续的高速增长半结构化、非结构化的数据3、列存储比行存储的优势海量数据查询时,不存...

2018-12-16 21:08:49 578

原创 java.util.concurrent - 线程池 ThreadPool

1、认识Executor(执行器)Java线程池中的顶层接口,用来执行任务的,只包含一个方法execute(Runnable command)2、ExecutorService继承Executor接口,代表启动多个线程为用户提供服务,启动方法是submit(Runnable/Callable),返回对象是Future类型(该类代表线程执行后的返回值)3、Callable,对Runn...

2018-12-15 19:56:11 392 2

原创 浅谈Kafka

一、基本概念1、Kafka里面消息的保存策略不同于其它消息队列,消息不是消费完就被销毁,而是通过指定的保存期限,在期限到来之前,消息是一直存在的;在期限到达,消息才会被销毁。2、leader的选择在Kafka中,不是以服务器broker为单位划分leader、follower,而是以副本(replication)为单位划分leader、follower。这样集群中每个服务器brok...

2018-12-14 22:20:48 215

原创 Strom基本概念

1、简要介绍Storm。Strom是分布式的实时计算系统,处理速度很快,可以达到毫秒级别,处理数据是一条一条的处理。组成是由一个个topology(拓扑)组成,一个拓扑可以包含多个spout和多个blot。spout只负责接收数据,将数据转换为Tuple(元组)流到blot;blot可以将spout流过来的数据进行处理,处理后的数据转换Tuple可以继续流向下一个blot或打印到控制台...

2018-12-14 15:21:59 1486

原创 Collection、Map相关的知识

参考于《Java程序员面试笔试真题与解析》——程媛之家、https://gitbook.cn/gitchat/activity/5a1e0c57521443295ce71d0e1、常见的集合整体上分为Collection和Map,在Collection下有List、Set、QueueMap是Key-Value类型。List,有序集合,存储的顺序与取出的顺序一致,常使用的List...

2018-12-13 14:50:51 169

原创 HBase基本原理

1、HBase的架构采用Master/Slave架构搭建集群,由以下节点组成HMaster节点1)管理HRegionServer,实现其负载均衡;2)管理和分配HRegion;3)实现DDL(增删改)操作。HRegionServer节点1)存放和管理本地HRegion;2)与HDFS进行读写交互;3)与客户端进行读写交互。ZooKeeper集群1)存放整...

2018-12-12 22:00:19 372

原创 Hive基本原理

1、Hive与HDFSHive中的数据库就是底层HDFS中的一个文件夹;Hive中的表就是库名文件夹下的子文件夹;Hive中的数据就是表文件夹下的文件;Hive中的hql会转换为底层的MR来执行;Hive默认库对应HDFS中的/usr/hive/warehouse;2、Hive的元数据(默认是Derby,可以修改MySQL作为存储)用来保存描述库、表、列的数据。默认存储...

2018-12-12 14:14:07 404

原创 Spark基本原理(二)

1、关于Spark的调优部分1)更好的序列化实现:在Spark中,需要序列化的地方包括写入磁盘、Worker之间传输RDD等。默认的Java序列化性能比较低,所以将序列化的方式修改为kryo;2)配置多个临时文件的目录:在并发性高的情况下,对一个文件的操作会影响整体的性能,为此可以创建多个文件夹,用于存放临时文件;3)启用推测执行机制:类似于Hadoop中的Task任务处理,在某个Ta...

2018-12-11 21:25:12 304

原创 ZooKeeper基本原理

1、简要介绍ZooKeeper一个分布式的协调服务框架,可以用于解决分布式环境中的常见问题,例如集群管理,统一命名服务、配置管理,分布式锁等。曾经看过马士兵老师的相关视频,马老师总结了七个字:有头、唯一、数据树有头,具有唯一的根结点 /唯一,每个节点都有唯一的路径数据树,存储在ZooKeeper的数据整体上形成了一颗二叉树2、ZooKeeper的选举机制前提:集群的特性...

2018-12-11 19:11:52 279

原创 Hadoop学习——其它(集群,MR调优,数据倾斜等)

1、Hadoop2.0的高可用有两个NameNode节点,一个active,一个standby(时刻同步active的数据),从而实现高可用。两个NameNode之间通过JournalNodes的独立进程进行通信,当active中的NameNode的命名空间有任何改变时,便会通知大部分的JournalNode进程。standby的NameNode有能力读取JN中的变更信息,并且一直观察ed...

2018-12-11 15:36:11 239

原创 MySQL--锁与事务以及索引相关

参考于《高性能MySQL》第一章1、读锁、写锁在多用户访问数据时,可能会造成同时对数据进行操作的情况,此时可能会导致数据的修改没有达到预期的效果,因此解决方法就是并发控制。在处理并发读或写时,通过两种锁来达到并发控制,共享锁(读锁)、排它锁(写锁)读锁是共享的,相互之间不阻塞的,即多个用户在同一时刻可以同时读取同一个资源。读锁可以和读锁并存。写锁是排它的,即一个写锁会阻塞其...

2018-12-11 09:03:07 179 1

原创 java.util.concurrent - 同步工具类

1、CountDownLatch的解释  http://www.importnew.com/15731.html在jdk1.5出现的类,它能够使一个线程等待其它线程完成工作后再执行,换句话说,就是一个线程执行的前提是某些线程必须执行完毕,此时就可以使用CountDownLatch。CountDownLatch通过一个计数器实现的,计数器的初始值是线程的数量。每当一个线程执行完毕后,便调用c...

2018-12-10 17:02:12 138

原创 Hadoop学习——YARN

1、Yarn的大致结构Resource Manager(RM,资源管理器):负责整个系统的资源管理和分配,并且由Scheduler和Application Manager组成;Scheduler(调度器):根据容量、队列等,将系统中资源分配给各个正在运行的应用程序;Application Manager(ASM,应用程序管理器):负责管理整个系统中所有应用程序,包括应用程序提交、与调度...

2018-12-09 17:47:04 1793 1

原创 Spark基本原理(一)

1、Hadoop中的MR与Spark有什么区别?为什么Spark有优势?MR的大致过程是:Map端从HDFS中读取到文件,并简单的进行数据处理,处理后将结果Spill(溢写)到磁盘;Reduce从磁盘读取Map产生的结果,进行处理后通常还是写回到HDFS上。这样的处理过程会多次的进行磁盘读写,而磁盘读取速度远远低于内存,所以性能有一定的瓶颈。Spark是使用内存对数据进行操作,输入...

2018-12-09 15:19:16 503

原创 Java中的GC(Garbage Collection)

1、如何判断是否是要回收的对象?1)引用计数算法:给对象添加一个计数器,每当有一个引用它时,计数器值加1;当引用失效时,计数器值减1。当计数器减为0时,说明该对象不能再被使用,此时该对象就可以被回收。缺点:当有循环引用时,会一直得不到回收,例如变量a和变量b之间互相引用,形成循环引用。2)可达性分析算法:通过一系列的称为“GC Roots”的对象为起点,从这些起点遍历,走过的路径称为引...

2018-12-08 20:24:27 370

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除