自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (1)
  • 收藏
  • 关注

转载 阿里云案例_保单金额实时统计_Flink+Datahub+Hologres

**情景:**某公司为保险业务构建金融类平台,该公司在平台中提供保险产品售卖与保单管理工具。平台中使用Flink实现续保客户全方位精细化管理,全流程周期跟踪。使用消息队列 Kafka 版实时计算 Flink 版交互式分析 Hologres架构:数据结构:renew_track:续保任务跟踪表call_log :通话记录表整个流程在阿里云上完成Kafka中配置数据源表登录Kafka控制台,选择对应region下的kafka实例在topic管理页面创建topic:renew_tr

2021-07-02 16:22:46 1040

原创 阿里云Lateral View 行转列

阿里云Lateral View 行转列示例数据使用示例示例数据假设已有一张表pageAds,它有三列数据,第一列是pageid string,第二列是col1 array,第三列是col2 array,详细数据如下。pageid col1 col2front_page [1, 2, 3] [“a”, “b”, “c”]contact_page [3, 4, 5] [“d”, “e”, “f”]使用示例单个Lateral View语句示例1:拆分col1。命令示例如下:select page

2021-02-20 16:27:33 417

原创 一文搞懂数据治理方法论

1、什么是数据治理数据治理是对数据资产的管理行使权力和控制的活劢集合(规划、监控和执行)。数据治理职能指导其他数据管理职能如何执行。2、开展数据治理的背景和价值2.1 背景–企业数据仓库/BI建设–数据集成/SOA–大数据–数据质量问题和影响–主数据管理–公共业务术语–合规问题–安全问题–兼并收购2.2 价值–提升数据质量(80.2%)–为共享数据建立清晰的决策规则和决策流程(65.6%)–提升数据资产的价值(59.4%)–提供解决数据问题的机制(56.8%)–促进IT和

2020-05-09 18:52:19 3202

原创 一文理清数据仓库实施方法论

关键的原则包括:以数据仓库技术为核心平台数据平台的设计必须解决现有问题,同时着眼于未来促进一致性和跨部门的整合剔除重复的数据保留事件的历史和事件的相关内容收集和保存最原始的数据收集满足现有需要更广泛的数据为客户的使用、使用模式和角色选择合适的工具达到自动操作化的最高程度和重复使用项目具体实施步骤项目前期准备:业务探索(Business Discovery)信息探索(Information Discovery)逻辑数据模型设计系统体系结构设计:物理数据库设计数据转换加.

2020-05-09 18:30:18 1772

转载 一篇文章带你搞定Kafka!

Apache Kafka 是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统, 使用 Scala 与 Java 语言编写,能够将消息从一个端点传递到另一个端点。较之传统的消息中间件(例如 ActiveMQ、RabbitMQ),Kafka 具有高吞吐量、内置分区、支持消息副本和高容错的特性,非常适合大规模消息处理应用程序。Kafka 官网:http://kafka.apach...

2020-05-03 00:40:17 212 1

转载 Spark架构详解

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的...

2020-05-02 22:54:27 189

原创 Hbase的一点个人总结

什么是Hbase?Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建起大规模结构化存储集群。Hbase的目标是存储并处理大型的数据,更具体的来说是仅需要使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。Hbase的架构体系Hbase有三个核心组件:分别是Zookeeper 、MasterServer 和Reg...

2020-05-02 19:53:41 1289

原创 springmvc中为什么需要用父子容器?

springmvc中为什么需要用父子容器?1.什么是父子容器?父子容器特点父容器和子容器是相互隔离的,他们内部可以存在名称相同的bean子容器可以访问父容器中的bean,而父容器不能访问子容器中的bean调用子容器的getBean方法获取bean的时候,会沿着当前容器开始向上面的容器进行查找,直到找到对应的bean为止子容器中可以通过任何注入方式注入父容器中的bean,而父容器中是无法...

2020-05-01 21:15:29 1868 2

原创 RabbitMQ和Kafka之间的一些总结

RabbitMQ 是采用 Erlang 语言实现的 AMQP 协议的消息中间件,最初起源于金融系统,用于在分布式系统中存储转发消息。RabbitMQ 发展到今天,被越来越多的人认可,这和它在可靠性、可用性、扩展性、功能丰富等方面的卓越表现是分不开的。Kafka 起初是由 LinkedIn 公司采用 Scala 语言开发的一个分布式、多分区、多副本且基于 zookeeper 协调的分布式消息系统,...

2020-04-20 14:37:11 541

原创 Sqoop的工作流程

稍微总结下Sqoop的工作流程1.读取要导入数据的表结构,生成运行类,默认是QueryResult,打成jar包,然后提交给Hadoop2.设置好job,主要也就是设置好以上第六章中的各个参数3.这里就由Hadoop来执行MapReduce来执行Import命令了,1)首先要对数据进行切分,也就是DataSplitDataDrivenDBInputFormat.getSplits(Job...

2020-04-20 14:23:58 895 1

原创 SparK总结

一 弹性分布式数据集(RDD)1 RDD存放数据的集合,数据是分布式存储的,可以保存在内存或磁盘中。是spark中最基本的数据抽象)2 RDD五大属性分区列表作用于分区中得到函数RDD之前的依赖关系:每次一个RDD通过函数操作会生成新的RDD(spark容错机制的依据:会根据依赖关系进行数据恢复)分区函数 * 只有k-v类型的RDD 才有分区函数(必须产生shuffle)一个列表...

2020-04-14 16:22:37 226

原创 Java并发的一些总结(面试须知)

1 Synchronized 与 Lock 的区别1)Synchronized 能实现的功能 Lock 都可以实现,而且 Lock 比 Synchronized 更好用,更灵活。2)Synchronized 可以自动上锁和解锁;Lock 需要手动上锁和解锁2 Runnable 和 和 Callable 的区别1)Runnable 接口中的方法没有返回值;Callable 接口中的方法有返回...

2020-03-20 22:20:17 89

原创 JVM的一些总结(面试须知)

1 JVM 内存分哪几个区,每个区的作用是什么?java 虚拟机主要分为以下几个区:方法区:a. 有时候也成为永久代,在该区内很少发生垃圾回收,但是并不代表不发生 GC,在这里进行的 GC 主要是对方法区里的常量池和对类型的卸载b. 方法区主要用来存储已被虚拟机加载的类的信息、常量、静态变量和即时编译器编译后的代码等数据。c. 该区域是被线程共享的。d. 方法区里有一个运行时常量池,...

2020-03-20 22:11:22 88 1

原创 Hive的一些总结

1.架构2.与数据库比较拥有类似的查询语言,其他不相同1)数据存储位置Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive 中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3)执行延迟Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive 的...

2020-03-19 23:02:50 359

原创 Hadoop的一些总结

1.Hadoop常用端口号dfs.namenode.http-address:50070dfs.datanode.http-address:50075SecondaryNameNode 辅助名称节点端口号:50090dfs.datanode.address:50010fs.defaultFS:8020 或者 9000yarn.resourcemanager.webapp.address...

2020-03-19 17:17:58 384 1

原创 红黑树的理解

红黑树特点:每个节点非红即黑;根节点总是黑色的;每个叶子节点都是黑色的空节点(NIL节点);如果节点是红色的,则它的子节点必须是黑色的(反之不一定);从根节点到叶节点或空子节点的每条路径,必须包含相同数目的黑色节点(即相同的黑色高度)红黑树的应用:TreeMap、TreeSet以及JDK1.8之后的HashMap底层都用到了红黑树。为什么要用红黑树简单来说红黑树就是为了解决...

2020-03-16 21:56:26 195

原创 单例模式

单例模式的好处对于频繁使用的对象,可以省略创建对象所花费的时间,这对于那些重量级对象而言,是非常可观的一笔系统开销;由于 new 操作的次数减少,因而对系统内存的使用频率也会降低,这将减轻 GC 压力,缩短 GC 停顿时间。懒汉式(双重检查加锁版本)public class Singleton { //volatile保证,当uniqueInstance变量被初始化成Singlet...

2020-03-16 21:35:41 64

原创 进程or线程,你该知道的东西

进程与线程的区别是什么?线程与进程相似,但线程是一个比进程更小的执行单位。一个进程在其执行的过程中可以产生多个线程。与进程不同的是同类的多个线程共享同一块内存空间和一组系统资源,所以系统在产生一个线程,或是在各个线程之间作切换工作时,负担要比进程小得多,也正因为如此,线程也被称为轻量级进程。另外,也正是因为共享资源,所以线程中执行时一般都要进行同步和互斥。总的来说,进程和线程的主要差别在于它们是...

2020-03-16 21:23:13 85

原创 在浏览器中输入url地址到显示主页的过程,整个过程会使用哪些 协议

当你在浏览器输入url地址DNS协议解析域名获得IP依据IP地址浏览器向服务器发送HTTP请求,使用TCP协议与服务器建立连接连接建立时要发送数据,发送数据在网络层使用IP协议期间IP数据包在路由器间路由选择使用OPSF协议路由器与服务器通信,需要将IP转换为MAC地址,使用ARP协议随即服务器处理请求,发回一个HTML响应,浏览器使用HTTP协议显示HTML页面。以上就是HTTP的...

2020-03-16 21:07:08 1198 2

原创 面试实战题目之转发(Forward)和重定向(Redirect)的区别

转发是服务器行为,重定向是客户端行为转发(Forword)通过RequestDispatcher对象的 forward(HttpServletRequestrequest,HttpServletResponse response) 方法实现的。RequestDispatcher 可以通过 HttpServletRequest的 getRequestDispatcher() 方法获得。重定...

2020-03-16 20:55:10 309

原创 Dubbo!Dubbo那些你需要掌握的地方

一、Dubbo的一些概念1.1什么是 Dubbo?Apache Dubbo (incubating) 是一款高性能、轻量级的开源Java RPC 框架,它提供了三大核心能力:面向接口的远程方法调用,智能容错和负载均衡,以及服务自动注册和发现。简单来说 Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。Dubbo 实际上是 RPC ...

2020-03-15 23:16:43 226

原创 消息队列-你该知道的那些东西

1.什么是消息队列我们可以把消息队列比作是一个存放消息的容器,当我们需要使用消息的时候可以取出消息供自己使用。消息队列是分布式系统中重要的组件,使用消息队列主要是为了通过异步处理提高系统性能和削峰、降低系统耦合性。目前使用较多的消息队列有ActiveMQ,RabbitMQ,Kafka,RocketMQ,我们后面会一一对比这些消息队列。另外,我们知道队列 Queue 是一种先进先出的数据结构,所...

2020-03-15 20:55:04 158

原创 Spring你该知道的那些东西

Spring基本框架Spring 框架是一个分层架构,由 7 个定义良好的模块组成。Spring模块构建在核心容器之上,核心容器定义了创建、配置和管理 bean 的方式,组成Spring框架的每个模块(或组件)都可以单独存在,或者与其他一个或多个模块联合实现。每个模块的功能如下:**1、核心容器:**核心容器提供 Spring 框架的基本功能(Spring Core)。核心容器的主要组件是 ...

2020-03-15 20:10:54 160

原创 redis你该知道的那些东西

Redis简介 redis 就是一个数据库,不过与传统数据库不同的是 redis 的数据是存在内存中的,所以存写速度非常快,因此 redis 被广泛应用于缓存方向。另外,redis 也经常用来做分布式锁。redis 提供了多种数据类型来支持不同的业 务场景。除此之外,redis 支持事务 、持久化、LUA脚本、LRU驱动事件、多种集群方案。1.为什么要用redis?...

2020-03-15 18:49:53 142

原创 面试之MySQL看这个就够了

说说自己对于 MySQL 常见的两种存储引擎:MyISAM与 InnoDB的理解关于二者的对比与总结:1. count运算上的区别:因为MyISAM有缓存表meta-data(行数等),因此在做COUNT(*)时对于一个结构很好的查询是不需要消耗多少资源的。而对于InnoDB来说,则没有这种缓存。2. 是否支持事务和崩溃后的安全恢复: MyISAM 强调的是性能,每次查询具有原子性,其...

2020-03-14 23:19:05 164

原创 **Java面试之设计模式

设计模式比较常见的就是让你手写一个单例模式(注意单例模式的几种不同的实现方法)或者让你说一下某个常见的设计模式在你的项目中是如何使用的,另外面试官还有可能问你抽象工厂和工厂方法模式的区别、工厂模式的思想这样的问题。建议把代理模式、观察者模式、(抽象)工厂模式好好看一下,这三个设计模式也很重要。...

2020-03-13 22:36:34 224

原创 **Java面试之虚拟机

常见问题:介绍下 Java 内存区域(运行时数据区)Java 对象的创建过程(五步,建议能默写出来并且要知道每一步虚拟机做了什么)对象的访问定位的两种方式(句柄和直接指针两种方式)拓展问题:String类和常量池8种基本类型的包装类和常量池如何判断对象是否死亡(两种方法)。简单的介绍一下强引用、软引用、弱引用、虚引用(虚引用与软引用和弱引用的区别、使用软引用能带来的好处)。如何...

2020-03-13 22:34:13 103

原创 Java面试之多线程

自定义标题(注:编辑器会根据文章标题自动生成目录)一 面试中关于 synchronized 关键字的 5 连击1.1 说一说自己对于 synchronized 关键字的了解synchronized关键字解决的是多个线程之间访问资源的同步性,synchronized关键字可以保证被它修饰的方法或者代码块在任意时刻只能有一个线程执行。早期的 synchronized 效率低, Java 早期...

2020-03-13 22:13:00 109

原创 Java面试之集合框架底层数据结构总结

CollectionListArraylist: Object数组Vector: Object数组LinkedList: 双向链表(JDK1.6之前为循环链表,JDK1.7取消了循环) 详细可阅读JDK1.7-LinkedList循环链表优化SetHashSet(无序,唯一): 基于 HashMap 实现的,底层采用 HashMap 来保存元素LinkedHashSet: ...

2020-03-13 20:28:59 130

原创 Java面试之ConcurrentHashMap 和 Hashtable 的区别

主要体现在实现线程安全的方式上不同。底层数据结构: JDK1.7的 ConcurrentHashMap 底层采用 分段的数组+链表 实现,JDK1.8 采用的数据结构跟HashMap1.8的结构一样,数组+链表/红黑二叉树。Hashtable 和 JDK1.8 之前的 HashMap 的底层数据结构类似都是采用 数组+链表 的形式,数组是 HashMap 的主体,链表则是主要为了解决哈希冲突而存...

2020-03-13 19:48:06 96

原创 Java面试之HashSet 和 HashMap 区别

HashSet 底层就是基于 HashMap 实现的。(HashSet 的源码非常非常少,因为除了 clone() 方法、writeObject()方法、readObject()方法是 HashSet 自己不得不实现之外,其他方法都是直接调用 HashMap 中的方法。)...

2020-03-13 19:31:13 289

原创 Java面试之HashMap多线程操作导致死循环问题

在多线程下,进行 put 操作会导致 HashMap 死循环,原因在于HashMap 的扩容 resize()方法。由于扩容是新建一个数组,复制原数据到数组。由于数组下标挂有链表,所以需要复制链表,但是多线程操作有可能导致环形链表。复制链表过程如下:线程一:读取到当前的 HashMap 情况,在准备扩容时,线程二介入线程二:读取 HashMap,进行扩容线程一:继续执行这个过程为,先将 A...

2020-03-13 19:29:56 587 1

原创 Java面试之HashMap 和 Hashtable 的区别

线程是否安全: HashMap 是非线程安全的,HashTable 是线程安全的;HashTable 内部的方法基本都经过synchronized 修饰。(如果你要保证线程安全的话就使用 ConcurrentHashMap 吧!);效率: 因为线程安全的问题,HashMap 要比 HashTable 效率高一点。另外HashTable 基本被淘汰,不要在代码中使用它;对Null key 和N...

2020-03-13 19:21:29 68

原创 Java面试之HashMap的底层实现

JDK1.8之前JDK1.8 之前 HashMap 底层是 数组和链表 结合在一起使用也就是 链表散列。HashMap 通过 key 的 hashCode 经过扰动函数处理过后得到 hash 值,然后通过 (n - 1) & hash 判断当前元素存放的位置(这里的 n 指的是数组的长度),如果当前位置存在元素的话,就判断该元素与要存入的元素的 hash 值以及 key 是否相同,如果相...

2020-03-13 19:17:24 62

原创 Java面试之ArrayList 与 Vector 区别

ArrayList 与 Vector 区别Vector类的所有方法都是同步的。可以由两个线程安全地访问一个Vector对象、但是一个线程访问Vector的话代码要在同步操作上耗费大量的时间。Arraylist不是同步的,所以在不需要保证线程安全时时建议使用Arraylist。...

2020-03-13 19:05:22 76

原创 Java面试之list的遍历方式选择

1.实现了RandomAccess接口的list,优先选择普通for循环 ,其次foreach,2.未实现RandomAccess接口的list, 优先选择iterator遍历(foreach遍历底层也是通过iterator实现的),大size的数据,千万不要使用普通for循环...

2020-03-13 19:03:53 720

原创 Java面试之RandomAccess接口

RandomAccess接口实际上什么都没有定义,可看作一个标识,标识实现这个接口的类具有随机访问功能。ArrayList 实现了 RandomAccess 接口, 而 LinkedList 没有实现。为什么呢?我觉得还是和底层数据结构有关!ArrayList 底层是数组,而 LinkedList 底层是链表。数组天然支持随机访问,时间复杂度为 O(1),所以称为快速随机访问。链表需要遍历到特定...

2020-03-13 19:00:51 111

原创 Java面试之Arraylist 与 LinkedList 异同

Arraylist 与 LinkedList 都不保证线程安全底层数据结构:Arraylist底层为Object数组,LinkedList为双向链表数据结构(JDK1.6之前为循环链表,JDK1.7取消了循环。注意双向链表和双向循环链表的区别:)插入和删除是否受元素位置的影响:① ArrayList 采用数组存储,所以插入和删除元素的时间复杂度受元素位置的影响。 比如:执行 add(E e...

2020-03-13 18:56:57 83

原创 Java面试之接口和抽象类的区别

接口的方法默认是 public,所有方法在接口中不能有实现(Java 8 开始接口方法可以有默认实现),抽象类可以有非抽象的方法接口中的实例变量默认是 final 类型的,而抽象类中则不一定一个类可以实现多个接口,但最多只能实现一个抽象类一个类实现接口的话要实现接口的所有方法,而抽象类不一定接口不能用 new 实例化,但可以声明,但是必须引用一个实现该接口的对象 从设计层面来说,抽象是对...

2020-03-13 07:38:01 266

原创 Java面试之键盘录入的两种方法

方法一:通过ScannerScanner input = new Scanner(System.in);String s = input.nextLine();input.close();方法2:通过 BufferedReaderBufferedReader input = new BufferedReader(new InputStreamReader(System.in));St...

2020-03-13 07:30:43 66

桌面视频播放软件

让你的视频在桌面播放,非常小巧的一个软件,桌面上实现视频播放。

2015-08-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除