自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Laurence的技术博客

// 专注是最好的修行

原创 重磅推荐:建大数据平台太难了!给我发个工程原型吧!

故事缘起:我们需要工程原型!大数据平台的架构体系庞大,技术堆栈非常深,从事大数据开发的同学对此应该都深有体会。而在很多细分领域(例如实时计算、作业调度)也没有像样的工程模板,这导致很多团队在启动大数据平台建设时往往感到无所侍从,也使得希望深入学习大数据技术的开发者由于缺少工程级的示例参考而感到迷茫。如果在大数据领域也有基于最佳实践提炼出来的工程原型,帮助团队快速启动开发,上手就写业务代码的话,你想了解一下吗?

2020-06-19 11:27:26 3049 4

原创 时间序列大数据平台建设经验谈

版权声明:本文由本人撰写并发表于2018年1月刊的《程序员》杂志,本文版权归《程序员》杂志所有,未经许可不得转载。引言在大数据的生态系统里,时间序列数据(Time Series Data,简称TSD)是很常见也是所占比例最大的一类数据,几乎出现在科学和工程的各个领域,一些常见的时间序列数据有:描述服务器运行状况的Metrics数据、各种IoT系统的终端数据、脑电图、汇率、股价、气象和天

2018-02-07 10:37:25 12521 4

原创 从函数字面量发现函数式编程

版权声明:本文由本人撰写并发表于2015年3月下半月的《程序员》杂志,原文题目《从字面量发现函数式编程》,本文版权归《程序员》杂志所有,未经许可不得转载。引言我相信很多像我一样初次接触函数式编程的程序员来说,对于“函数字面量”这个概念会感到迷惑和不解。伴随着深入地学习,在清晰地理解了这个概念之后,我进行了一些梳理和回溯,作为函数式编程思想延伸到最基层的语言元素,我深刻地觉得“函数字面量”这

2015-04-27 11:54:09 8952 5

原创 HBase高性能复杂条件查询引擎

版权声明:本文由本人撰写并发表于2014年7月份的InfoQ,HBase的PMC成员Ted Yu先生参与了审稿并于给予了肯定。该方案设计之初仅寄希望于通过二级索引提升查询性能,由于在前期架构时充分考虑了通用性以及对复杂条件的支持,在后来的演变中逐渐被剥离出来形成了一个通用的查询引擎。HBase在大数据领域的应用越来越广泛,成为目前NoSQL数据库中表现最耀眼,呼声最高的产品之一,但就应对复杂条件的查询来说,一般认为它并不是非常适合,熟悉HBase的开发人员对此应该有一定的体会,但是基于普遍的需求,开发者们希

2014-06-17 20:10:36 42790 35

原创 数据库分库分表(sharding)系列(五) 一种支持自由规划无须数据迁移和修改路由代码的Sharding扩容方案

版权声明:本文由本人撰写并发表于2012年9月份的《程序员》杂志,原文题目《一种支持自由规划的Sharding扩容方案——主打无须数据迁移和修改路由代码》,此处作为本系列的第五篇文章进行转载, 本文版权归《程序员》杂志所有,未经许可不得转载!作为一种数据存储层面上的水平伸缩解决方案,数据库Sharding技术由来已久,很多海量数据系统在其发展演进的历程中都曾经历过分库分表的Sharding改造阶段

2012-09-12 12:19:52 67806 57

原创 Spring基于ThreadLocal的“资源-事务”线程绑定设计的缘起

题目起的有些拗口了,简单说,这篇文章想要解释Spring为什么会选择使用ThreadLocal将资源和事务绑定到线程上,这背后有着什么样的起因和设计动机,通过分析帮助大家更清晰地认识Spring的线程绑定机制。本文原文链接:http://blog.csdn.net/bluishglc/article/details/7784502 转载请注明出处!“原始”的数据访问写法访问任何带有事务特性的资源系

2012-07-25 14:17:56 25663 12

原创 数据库分库分表(sharding)系列(一) 拆分实施策略和示例演示

本文原文连接: http://blog.csdn.net/bluishglc/article/details/7696085 ,转载请注明出处!本文着重介绍sharding切分策略,如果你对数据库sharding缺少基本的了解,请参考我另一篇从基础理论全面介绍sharding的文章:数据库Sharding的基本思想和切分策略 第一部分:实施策略图1.数据库分库分表(sharding)实施策略图解(

2012-06-27 14:32:44 172309 24

原创 从MVC框架看MVC架构的设计

从MVC框架看MVC架构的设计尽管MVC早已不是什么新鲜话题了,但是从近些年一些优秀MVC框架的设计上,我们还是会发现MVC在架构设计上的一些新亮点。本文将对传统MVC架构中的一些弊病进行解读,了解一些优秀MVC框架是如何化解这些问题的,揭示其中所折射出的设计思想与设计理念。MVC回顾作为一种经典到不能再经典的架构模式,MVC的成功有其必然的道理,这个道理不同的人会有不同的解读,笔者最认同的一种观

2011-08-16 09:57:37 90737 82

原创 领域驱动设计(Domain Driven Design)参考架构详解

领域驱动设计(Domain Driven Design)参考架构详解摘要本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构,该架构分成了Interfaces、Applications和Domain三层以及包含各类基础设施的Infrastructure。本文会对架构中一些重要组件和问题进行讨论,给出一些分析结论。本文原文连接:http://blog.csdn.net/b

2011-08-12 11:33:02 59317 12

原创 SOA为什么不“香”了?| 建设数据中台系列(三)

SOA 所有的理念都是基于现有应用系统展开的,不管是对服务的梳理还是服务之间的交互,都是以现有应用系统为载体的,中台不同于SOA 的地方在于:中台是一种平台化思维,它并不是从系统集成的角度去思考问题,而是从架构层面上重构了整个IT 生态。相比之下,中台无疑是一种更深刻、更底层的变革,因为它完全破除了应用之间的壁垒,把企业的核心业务能力“中心化”,把它们提炼并沉淀到中台的各个业务中心上,而不是面向单一业务方向或渠道的应用系统上。这在SOA 架构下是很难实现的,因为中台的业务中心与SOA 的服务载体(即应用系.

2020-08-01 09:32:37 199

原创 怎么走着走着就变“烟囱”了呢?| 建设数据中台系列(二)

这两年,随着中台概念的兴起,一种IT过去的常态,现在的明星反面教材——“烟囱式架构”被反复提及并为大家所熟知。作为中台的对立面,烟囱式架构不幸地成为了业界合力吐槽的“倒霉孩子”,那些对比中台理念审视过自身IT系统的传统企业都不禁心虚地喃喃自语道:“嗯,我有病,得治!”开个玩笑,其实我们并不打算在这篇文章里对烟囱架构进行批判,“家家有本难念的经”,企业形成今天的烟囱式架构是由很多现实问题导致的,并不是什么管理或决策上的疏失,如果说烟囱式架构就是一种“病”,那么可以说“雪崩来的时候,没有一片雪花是无辜的”。

2020-07-23 09:32:53 171

原创 可以复用的数据中台架构与建设实践 | 数据中台公开课

数据中台的概念满天飞,但是数据中台的落地始终是一个难点,很难统一。最近几年,随着企业数据的爆炸式增长,以及大数据与人工智能的普及和推广,越来越多的企业意识到“数据”对企业的重要性。建设“数据驱动型”企业也成了越来越多企业的战略目标之一。加大数据领域的投入,促使了IT部门开启了新一代数据平台的建设工作。目前,新一代数据平台均以大数据和人工智能作为核心技术支撑,在方法论上,数据中台理论则是现在行业内讨论最为热烈的话题。这些理论和技术体系庞大而复杂,需要专业的人才和团队进行建设和管理,其中很多工作充满挑战.

2020-07-22 09:17:24 304

原创 企业数据能力测评:认清现状,布局未来 | 建设数据中台系列(一)
原力计划

“我的企业目前在数据应用上处于什么水平?接下来应该朝哪个方向努力?”本文试图帮助企业决策者和IT负责人解答这一问题。今天,数据之于企业的重要性已经勿须多言,建设数据驱动型企业已成为众多企业的战略目标之一。在这一趋势的引领下,很多企业开始了新一代数据平台(例如数据中台)的建设工作,然而在启动这一具有挑战性的工作之前,企业首先需要冷静客观地审视一下自己的数据生态,弄清楚目前所处的能力水平,以及下一步努力的“方向”。只有这样才能确保后续工作沿着正确的方向展开,这可能也是企业在构建全新的大数据平台或数据中台前.

2020-07-10 11:13:18 1184

原创 Java应用/JDBC/Squirrel在Kerberos认证时报Unable to obtain Principal Name for authentication的解决方法

Java应用/JDBC/Squirrel在Kerberos认证时报Unable to obtain Principal Name for authentication的解决方法关于如何在Windows本地安装配置Kerberos客户端,以及进行相关的配置,网上有很多现成的文档可以参考,其中: https://841809077.github.io/2018/12/19/Windows本地安装配置...

2019-07-12 15:59:20 4118

原创 Kerberose安装与CDH集成

Kerberose安装与CDH集成文章目录Kerberose安装与CDH集成1.Kerberose安装1.1. 软件版本1.2. 集群角色1.3. 安装JCE Policy File1.4. 安装Kerberos1.5. 配置Kerberos1.6. 创建数据库1.7. 启动Kerberos服务1.8. 验证安装2. 在CDH上启用Kerberos3. 创建hdfs/hive等用户主体3. 创建...

2019-05-31 09:15:25 615

原创 提升小规模HDP集群的作业并行度

对于团队使用的一些小型的Hadoop集群来说,由于资源有限,团队成员又多,并行开发和测试又密集,很容易出现资源紧张,作业被pending无法执行的情况,最大化的配置集群作业的并行度是开发环境的集群所必须的。1. Yarn Queue的作业分配粗策略默认情况,Yarn作业的提交顺序使用FIFO策略,如果想要提升作业的并行度,可以改为FAIR2. Yarn Queue的AM资源分配比一般情...

2019-01-30 18:18:54 738 1

原创 Hive JDBC连接Tez(AM)容器长期不释放问题的解决方法

Hive JDBC连接Tez(AM)容器长期不释放问题的解决方法问题有这样一个问题是很常见的:如果我们的Hive使用默认使用Tez作为执行引擎,当我们使用IDE通过Hive JDBC连接时,会出现在一个很“有趣”的想象:即如果我们不断开这个JDBC连接,则在Yarn上会持续有有一个Tez的AM容器持续存在,只有当端开JDBC连接时,这个容器才会被释放。关于Tez在Yarn的资源布局,可参考这篇...

2019-01-30 15:31:09 2426 1

原创 Spark SQL和Hive在处理日期/时间上的差异

注: 本文使用的环境是:Spark:2.2, Hive: 1.2.1最近在编写一个SQL的过程中遇到了这样一个陷阱:为了便于工作,SQL的编写是通过一个SQL的IDE环境以Hive JDBC驱动的方式连接到HIVE上去执行的,SQL在HIVE上执行正常,有结果数据返回。但是SQL开发好在程序执行时通过Spark-SQL来运行的,SQL可以成功执行,没有报出任何语法错误,但是没有任何结果数据!在经...

2018-12-27 12:05:22 2672

原创 Kerberos笔记

本文以《Hadooop Security》等资料为基础,罗列关于Kerberos的一些重要内容的笔记。文章目录Kerberos的基本思想没有Kerberos时,Hadoop是如何工作的?Kerberos概述1. Principal2. Realm3. KDC3.1 Kerberos数据库3.2 认证服务 (authentication service)3.3 票据授予服务(ticket-gra...

2018-12-08 13:59:47 2964

原创 数仓CUBE操作术语备忘

SLICE (切片)将某一个(或多个)维度上的值锁定,只观察当这个维度取这个值时的情形,相当于将一个立方体做了一个切片。DICE (切块)将某一个(或多个)维度上的值固定在一个区间内,观察这个取值区间内cube的情形,相当于将一个立方体做了一个切块。ROLL UP (上卷)沿着某一个(或多个)维度进行聚合,观察聚合后其他维度上的汇总数据,相当于将一个立方体沿着某个维度压缩(聚合)在一起...

2018-11-06 17:23:23 1537

原创 Spark Structured Stream的流关联(Stream-Stream Joins)

自Spark 2.3开始,Spark Structured Streaming开始支持Stream-stream Joins。两个流之间的join与静态的数据集之间的join有一个很大的不同,那就是,对于流来说,在任意时刻,在join的两边(也就是两个流上),数据都是“不完全”的,当前流上的任何一行数据都可能会和被join的流上的未来某行数据匹配到,为此,Spark必须要缓存流上过去所有的输入,以...

2018-08-01 10:48:04 3981 4

原创 Spark报java.util.NoSuchElementException: head of empty list错误的解决方法

如果在Spark Structured Streaming上使用了Arbitrary Stateful Operations, 也就是使用了mapGroupsWithState或flatMapGroupsWithState方法,而其中GroupState[S]的S又偏偏是一个自定义的类型,那么你就会遇到这个错误!产生这个错误的原因是Spark找不到相应的Encoder,Encoder的作用是负责J...

2018-07-25 18:33:48 3170

原创 Spark Structured Streaming: 自维护(任意)状态流的“超时”(Timeout)问题

此“超时”非彼“超时”在我们开始这篇文章之前,我们必须要先弄清除一下问题:为什么流的上的状态会有“超时”问题?超时机制是为什么样的业务场景而设计的?通常情形下,人们一种直白的想法是:某种状态在长时间没有得到来自新数据的更新时,我们可以认为这个状态是“超时”了,它应该不复存在了,应该永远的被移除掉。然而遗憾的时是,Spark对于“状态”以及“超时”是另外一种理解:Spark认为既然流是没有边...

2018-06-28 15:42:41 2107 2

原创 Spark基于事件时间的“状态”流的深层分析 - withWatermark与mapGroupsWithState的关系

不管是基于watermark的窗口计算还是自维护的状态流,它们都是有状态的,watermark只是规定了数据进入“状态”(有资格参与状态计算)的条件,并没有(也不适合)声明状态的“退出”机制。对于watermark的窗口计算来说,它们的“退出”机制是:如果最近某个还处于active状态的窗口它的EndTime比当前批次中最新的一个事件时间减去watermark规定的阈值还要“早”,说明这个窗口所有...

2018-06-27 09:48:27 3280 2

原创 Spark性能调优系列二:Spark流计算重要性能参数测试与分析

参数介绍spark.scheduler.modespark.streaming.concurrentJobsscheduler线程池测试用例Test Case Group 1: FIFO vs. FAIRTest Case 1-1: FIFOTest Case 1-2: FAIRTest Case Group 2: FIFO 1 Slot vs. FIFO 4 Slo...

2018-06-21 09:39:41 3529 2

原创 Spark性能调优系列一:Spark的作业模型

JobSpark的整个作业体系中,处于顶层的是Job, Job和Spark中的Action是一一对应的,每一个Action都会触发一个Job的执行,这个Job包含的处理逻辑是Action以及Action之前的所有Transformation, 所有这些逻辑会被Spark转换成一张关于RDD的DAG(有向无环图),这个DAG也就是实际意义上的Job的执行计划。StageJob的下一个...

2018-06-11 16:12:44 989

原创 Spark Structured Streaming多流multiple streams)多查询(multiple queryies)问题

Structured Streaming作为Spark新一代的流计算编程模型,针对流计算提供了很多新的的高级的API进行支持,这使得它比DStream要好用的多,同时编码量也大幅度地减少,但是在当前版本V2.3下, Structured Streaming无法支持 多流(multiple streams) 多查询 (multiple queryies)是非常头痛的一个问题。在流计算中,一个非常...

2018-06-08 09:56:32 2621 6

原创 Flink初探

编程模型应该说Flink的编程编程模型和Spark Streaming的DStream还是非常相似的,也是抽象出了Stream概念也表示没有边界的数据流,针对Stream所施加操作是被称之为”transformation”,它会把一个流转换成另一个流作为转换的输出。与很多流计算模型一样,流的起点往往是数据的输入源,被称之为”source”,流的重点是数据的输出目的地,被成为“sink”。下 图...

2018-05-25 10:05:25 5468 3

原创 《Spark Structured Streaming》 官方文档解读

模型思想从Spark 2.0开始,Spark Streaming引入了一套新的流计算编程模型:Structured Streaming,开发这套API的主要动因是自Spark 2.0之后,以RDD为核心的API逐步升级到Dataset/DataFrame上,而另一方面,以RDD为基础的编程模型对开发人员的要求较高,需要有足够的编程背景才能胜任Spark Streaming的编程工作,而新引入的...

2018-05-23 17:33:16 6241 1

原创 应该广泛使用case语句简化函数字面量的实现

这篇文章很短,但足以单独作为一篇文章存在,因为这里介绍的这个Scala编程技巧非常的实用和高效。在Scala里我们需要大量地编写一些函数字面量作为参数传递给高阶函数,而很多时候,被要求提供的函数字面量的参数是一些复合类型,比如tuple,在函数字面量的实现体中,往往第一步就是通过模式匹配从复合类型中提取出嵌套的变量进行计算,例如下面计算元组两元素平方差的例子:scala> v...

2018-05-03 15:40:23 652

原创 谨慎使用Scala Map的mapValues, 你需要的可能是transform

没有踩过mapValues的坑之前,我相信大多数人会认为mapValues和所有其他map类方法的逻辑是一样的:对Map里所有的value施加一个map函数,返回一个新的Map。但实际情况却并不这么简单,还是先看一段“诡异”的代码吧 (本文原文出处: 本文原文链接: http://blog.csdn.net/bluishglc/article/details/80156218 转载请注明出处。):...

2018-05-01 14:07:48 8156

原创 MySQL常见问题与常用语句汇总

root用户初始登入与重置密码允许root用户远程登入为特定数据库创建特定用户并赋予权限导出完整的数据库到SQL脚本包含schema和insert语句执行SQl脚本把MySQL中的一些常见问题与常用语句汇总一下,以备后查。root用户初始登入与重置密码初次安装MySQL后,root用户的密码会存放于日志文件/var/log/mysqld.log, 登入...

2018-02-24 11:18:59 601

原创 命令模式:若只如“初见”

版权声明:本文由本人撰写并发表于InfoQ, 原文链接: http://www.infoq.com/cn/news/2018/01/Command-mode-if-only-first-see似曾相识最近在InfoQ上看到一篇谈论命令模式与CQRS架构的译文《From CQS to CQRS》(建议先阅读此文,本文会针对该文的一些观点进行探讨),文章从命令模式谈起,然后提出了命令模式的升级

2018-01-05 10:00:03 659

原创 再谈Scala集合

集合!集合!一个现代语言平台上的程序员每天代码里用的最多的大概就是该语言上的集合类了,Scala的集合丰富而强大,至今无出其右者,所以这次再回过头再梳理一下。集合“族谱”还是先上张图吧,这是我找到的最好的一个关于Scala集合的图了,出自:http://lkumarjain.blogspot.co.id/2015/01/scala-collection-framework.html :一致的构建风格

2017-12-14 14:01:05 1157

原创 Pull模式下流计算频率与周期相关性的分析

本文讨论的话题有一些特定的背景,这里的“流计算”具体指的是以Spark Streaming为代表的Micro Batch一类的流式计算框架,因此会涉及到Batch Duration、Window以及Slide等概念。在架构层面上,数据流的走向是:数据采集组件以Pull的模式采集数据后推送给消息队列,流式处理组件以Pull的模式从消息队列中获取数据,处理之后写入NoSQL数据库,最后,前端的数据展示组

2017-11-06 11:50:51 953

原创 BlockingQueue在任务调度中的精彩应用

问题来了…我们正在构建的系统需要从外部第三方系统中采集数据,受不可控的外部环境的影响,我们的数据采集工作经常被阻塞,一种典型的情况是:某个目标数据库因为要同时处理多个外围系统叠加的查询请求而经常响应缓慢,从而导致我们的Job严重超时,而这个Job原有的设计是每5分钟执行一次,每次执行时会从目标数据库中查询最近5分钟内的数据,通常情况下这种简单的设计没有问题,但是当前一个Job严重超时时,后续启动的J

2017-11-05 10:04:38 1451 1

原创 Maven War 插件Classes文件夹打为Jar包的Bug与解决方法

有时候我们需要利用Maven Resource管理的过滤功能将某些文件中的${XXX}变量在构建时进行动态替换,但同时我们不希望这些文件被加入到jar包中,因为它们是在jar包外或者只是部署时有用,这个需求在Maven的Jar插件中有对应的功能支持,即<excludes>标签。但是在War插件中,就没有这么幸运了。War插件的配置中有一个<packagingExcludes>配置项,当项目中类和资源

2017-09-07 10:53:14 1413

原创 Why Should HBase RegionServer & Hadoop DataNode Colocate?

Some basic background information first, HBase, as a distributed NoSQL database, its slave (worker) node is named “RegionServer”, all data reading, writing or scanning workloads are on these RegionServ

2017-07-26 12:58:05 1622

原创 Scala之自身类型(Self Type)与蛋糕模式(Cake Pattern)

目录设计一辆车第一版的实现基于继承第二版的实现基于组合引入自身类型Self Type引入蛋糕模式Cake Pattern利弊得失本文基于Gregor Heine分享的PPT《Scala Self-Types》注解式地介绍自身引用(Self Type)和蛋糕模式(Cake Pattern),原PPT解释地非常好,感兴趣的朋友可以自行下载阅读。设计一辆车一辆汽车往往会包含这样一些组件:En

2017-03-07 08:26:12 5255 1

原创 站在新语言平台上再谈"组合"与"继承"

长久以来,OO编程思想的一个重要信条是:多用组合,少用继承,这被广为接受和认可。Scala引入Trait(特质)之后,这一点“似乎”受到了冲击,你可以看到,在很多Scala代码里出现了通过继承多个Trait为一个Class混入(追加)新功能的案例,而其中有不少案例是过去我们在传统OO语言(例如Java)中不会或不建议的做法,因为看上去那确实是在滥用继承。举个简单的例子,日志功能是非常普遍的需求,传统

2017-03-06 08:27:01 2352 1

提示
确定要删除当前文章?
取消 删除