自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(707)
  • 收藏
  • 关注

原创 ClickHouse深度解析 一般有用 看1 速

一、什么是ClickHouse?ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,查询性能非常好,使用之后会被它的性能折服,非常值得安利。二、适用场景志数据行为分析...

2024-04-02 23:03:00 953

原创 大数据模型、离线架构、实时架构 有用 各种架构图及优点

一.大数据模型8种常见的大数据分析模型:1、留存分析模型;2、漏斗分析模型;3、全行为路径分析;4、热图分析模型;5、事件分析模型;6、用户分群模型;7、用户分析模型;8、黏性分析模型。1、留存分析模型留存分析模型是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为,这是用来衡量产品对用户价值高低的重要方法。2、漏斗分析模型漏斗分析是一套流程...

2024-03-31 22:59:00 267

原创 客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu

Spark操作Kudu dataFrame操作kudu一、DataFrameApi读取kudu表中的数据虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读/写API。要设置读取,我们需要为Kudu表指定选项,命名我们要读取的表以及为表提供服务的Kudu集群的Kudu主服务器列表。代码示例/** * 使用DataFrame...

2024-03-30 00:36:00 345

原创 客快物流大数据项目(八十六):ClickHouse的深入了解 一般有用 看1

​ClickHouse的深入了解一、介绍ClickHouse是俄罗斯的Yandex于2016年开源的面向OLAP列式数据库管理系统(DBMS)ClickHouse采用 C++ 语言开发,以卓越的查询性能著称,在基准测试中超过了目前很多主流的列式数据库ClickHouse集群的每台服务器每秒能处理数亿到十亿多行和数十千兆字节的数据ClickHouse会充分利用所有可用的硬...

2024-03-30 00:35:00 715

原创 客快物流大数据项目(四十五):Spark操作Kudu DML操作

Spark操作Kudu DML操作Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成. 包括:INSERT - 将DataFrame的行插入Kudu表。请注意,虽然API完全支持INSERT,但不鼓励在Spark中使用它。 使用INSERT是有风险的,因为Spark任务可能需要重新执行,这意味着可能要求再次插入已插入的行。这样做会导致失败,因...

2024-03-30 00:30:00 246

原创 客快物流大数据项目(四十四):Spark操作Kudu创建表

Spark操作Kudu创建表Spark与KUDU集成支持:DDL操作(创建/删除)本地Kudu RDDNative Kudu数据源,用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert /删除谓词下推Kudu和Spark SQL之间的模式映射到目前为止,我们已经听说过几个上下文,例如SparkContext,SQLContext,H...

2024-03-30 00:29:00 222

原创 客快物流大数据项目(九十三):ClickHouse的ReplacingMergeTree深入了解 ClickHouse清除重复数据...

​ClickHouse的ReplacingMergeTree深入了解为了解决MergeTree相同主键无法去重的问题,ClickHouse提供了ReplacingMergeTree引擎,用来对主键重复的数据进行去重。删除重复数据可以使用optimize命令手动执行,这个合并操作是在后台运行的,且无法预测具体的执行时间。在使用optimize命令执行合并时,如果表数据量过大,会导致耗时很长,...

2024-03-29 23:24:00 270

原创 客快物流大数据项目(五十一):数据库表分析 物流项目 数据库表设计

数据库表分析一、物流运输管理数据库表1、揽件表(tbl_collect_package)2、客户表(tbl_customer)3、物流系统码表(tbl_codes)4、快递单据表(tbl_express_bill)5、快递包裹表(tbl_express_package)​​​​​​​6、客户地址表(tbl_address)​​​​​​​7、客户寄件信息表(tbl_consumer...

2024-03-29 23:18:00 349

原创 客快物流大数据项目(四十二):Java代码操作Kudu

Java代码操作Kudu一、构建maven工程二、导入依赖三、​​​​​​​创建包结构四、​​​​​​​初始化方法五、​​​​​​​创建表六、​​​​​​​插入数据七、​​​​​​​查询数据八、修改数据九、​​​​​​​删除数据十、​​​​​​​修改表十一、​​​​​​​删除表Java代码操作Kudu一、​​​​​​​构建maven工程二、导入依赖&lt...

2024-03-29 23:14:00 604

原创 客快物流大数据项目(八十二):Kudu的读写原理 一般有用 看1

Kudu的读写原理一、​​​​​​​工作模式Kudu的工作模式如下图,有些在上面的内容中已经介绍了,这里简单标注一下:每个kudu table按照hash或range分区为多个tablet;每个tablet中包含一个MemRowSet以及多个DiskRowSet;每个DiskRowSet包含BaseData以及DeltaStores;DeltaStores由多个...

2024-03-29 23:11:00 303

原创 客快物流大数据项目(六十二):主题及指标开发 common包下定义的一些内容 一般有用 看1...

主题及指标开发一、主题开发业务流程二、离线模块初始化1、创建包结构2、​​​​​​​创建时间处理工具3、​​​​​​​定义主题宽表及指标结果表的表名4、​​​​​​​物流字典码表数据类型定义枚举类5、​​​​​​​封装公共接口主题及指标开发一、主题开发业务流程二、​​​​​​​离线模块初始化1、​​​​​​​创建包结构本次项目采用scala编程语言,因此创建sc...

2024-03-29 22:41:00 263

原创 客快物流大数据项目(六十八):工作流调度 azkaban介绍及用法 一般有用 图片偏多 看1...

工作流调度一、工作流产生背景工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据采集、数据预处理、数据分析、数据展示等。各...

2024-03-29 22:36:00 388

原创 客快物流大数据项目(八十五):实时OLAP分析需求 一些组件的特点 一般有用 看1...

​实时OLAP分析需求一、​​​​​​​背景介绍在之前的文章学习了离线数仓的构建,但是离线数仓的最大问题即:慢,数据无法实时的通过可视化页面展示出来,通常离线数仓分析的是“T+1”的数据,针对于时效性要求比较高的场景,则无法满足需求,例如:快速实时返回“分组+聚合计算+排序聚合指标”查询需求。因此智慧物流系统的应用场景分为以下几个部分:Spark-to-Kudu 小时/日级场景Spa...

2024-03-29 22:28:00 698

原创 客快物流大数据项目(四十一):Kudu入门介绍 一般有用 看1

Kudu入门介绍一、背景介绍二、新的硬件设备三、Kudu是什么​​​​​​​四、​​​​​​​Kudu的应用场景五、​​​​​​​Kudu架构Kudu入门介绍一、背景介绍在Kudu之前,大数据主要以两种方式存储;静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。动态数据:以 HBase、Ca...

2024-03-29 22:24:00 217

原创 客快物流大数据项目(三):项目解决方案 一般有用 看1 kudu和clickhouse

项目解决方案一、核心业务流程1、快递单2、运单3、干线运输二、逻辑架构三、数据流转四、项目的技术选型1、流式处理平台2、分布式计算平台3、海量数据存储五、框架软件版本六、技术亮点七、服务器资源规划项目解决方案一、核心业务流程操作步骤说明1客户下单客户通过微信公众号、微信小程序、...

2024-03-29 22:17:00 375

原创 客快物流大数据项目(八十一): Kudu原理 有用 看1

​Kudu原理一、表与schemaKudu设计是面向结构化存储的,因此Kudu的表需要用户在建表时定义它的Schema信息,这些Schema信息包含:列定义(含类型)Primary Key定义(用户指定的若干个列的有序组合)数据的唯一性,依赖于用户所提供的Primary Key中的Column组合的值的唯一性。Kudu提供了Alter命令来增删列,但位于Primary Key中的...

2024-03-29 18:48:00 370

原创 客快物流大数据项目(一百):ClickHouse的使用 spark操作ClickHouse代码

ClickHouse的使用一、使用Java操作ClickHouse1、构建maven工程2、​​​​​​​导入依赖<!-- Clickhouse --><dependency> <groupId>ru.yandex.clickhouse</groupId> <artifactId>clickhous...

2024-03-29 17:48:00 388

原创 客快物流大数据项目(四十):ETL实现方案

目录ETL实现方案一、ETL处理流程图二、为什么使用Kudu作为存储介质ETL实现方案一、​​​​​​​ETL处理流程图数据来源:来自于ogg同步到kafka的物流运输数据来自于canal同步到kafka的客户关系数据二、为什么使用Kudu作为存储介质数据库数据上的快速分析目前很多业务使用事务型数据库(MySQL、Oracle)做数据分析,把数据写入数据库...

2024-03-29 17:46:00 362

原创 客快物流大数据项目(七十):Impala入门介绍 一般有用 看1

Impala入门介绍一、impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具)当中的...

2024-03-29 17:44:00 400

原创 客快物流大数据项目(一百零一):实时OLAP开发 clickhouse的OLAP代码

​实时OLAP开发一、实时ETL处理使用ClickHouse分析物流指标数据,必须将数据存储到ClickHouse中。业务流程:二、SparkSQL基于DataSourceV2自定义数据源1、​​​​​​​​​​​​​​Data Source API V1Spark 1.3 版本开始引入了 Data Source API V1,通过这个 API 我们可以很方便的读取各种来源...

2024-03-29 17:36:00 864

原创 客快物流大数据项目(一):物流项目介绍和内容大纲 有用 总体架构图

物流项目介绍和内容大纲一、项目简介 本项目基于大型物流公司研发的智慧物流大数据平台,该物流公司是国内综合性快递、物流服务商,并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局,拥有大规模的客户群,日订单达上千万,如此规模的业务数据量,传统的数据处理技术已经不能满足企业的经营分析需求。该公司需要基于大数据技术构建数据中心,从而挖掘出隐藏在数据背后的信息价值,为企业提供有益的帮助,带来...

2024-03-29 17:31:00 359

原创 atlas 一般有用 看1 速

1 atlas的使用包含两方面:注入元数据信息到atlas中(本质上是写入元数据到atlas中)注入方式一:通过atlas为数据系统开发好的hook来注入方式二:通过atlas自带的web-ui来认同填写元数据信息注入方式三:通过调用atlas对外暴露的接口来灵活注入修改atlas的元数据的方式方式一:通过atlas自带的web-ui界面来修改元数据信息方式二:调用atlas接口更加灵活 的修改...

2024-03-16 05:41:35 158

原创 ranger 和kerberos 一般有用 看1 速

再说ranger之前需要明白一下大数据的安全体系的整体介绍,安全体系其实也就是权限可控,先说说权限:权限管理的目标,绝对不是简单的在技术层面建立起用户,密码和权限点的映射关系这么简单的事,更重要的是要从流程合理性,业务隔离,实施代价,可执行性等方面进行考虑。单方面强调安全,结果往往并不理想。重要的通过适度的安全管理手段,降低业务误操作的风险,结合业务流程和系统交互设计,实现业务的合理分隔,提高工...

2024-03-16 01:30:00 874

原创 Azkaban面试题 一般有用 看1 速

Azkaban 是由Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流 内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式, 通 过配置中的 Dependencies 来设置依赖关系。Azkaban 使用job 配置文件建立任务之间的依赖 关系, 并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。1.2 为什么需要工作流调...

2024-03-15 23:57:00 285

原创 Kerberos面试题 没用 讲的不清楚

=================================【这部分Kerberos原理,是最新总结,仅做参考】=====================================Kerberos基本概念:  1. Kerberos中有三种角色:    服务器, 客户端    KDC(认证服务器)      客户端和服务器要信任KDC      并且KDC要存储它们每个人的私有密...

2024-03-15 23:51:00 512

原创 ClickHouse 面试题 一般有用 看1 速

1.ClickHouse是什么ClickHouse联机分析的数据库管理系统2.列式存储和行式存储的区别列式存储的优点是同一列存放在一起,由于数据类型相同,可以进行很好的压缩,排序更加方便,查询时不需要读取一整行数据行式存储的优点是支持事务处理,更好的支持一致性3.MergeTree是什么mergetree有俩层含义:合并树表引擎家族或者是最基本的MergeTree表引擎3.1MergeTr...

2024-03-15 18:38:00 451

原创 Skywalking 一般有用 看1 速

问:什么是Skywalking?答:Skywalking是一个针对分布式系统的开源应用程序性能监控(APM)工具。它专门为微服务、云原生和基于容器(例如Kubernetes)的架构设计,能够提供实时的可视化监控和健康状态,包括响应时间、吞吐量、错误率和资源利用率等指标。问:Skywalking是如何工作的?答:Skywalking通过在分布式系统中部署代理来收集数据,并通过用户友好的界面进行分...

2024-03-15 01:30:00 262

原创 银行主题域划分 一般有用 看1 速

当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道便于记忆:银行是一个企业,同时也是一个机构,涉及企业机构就会有资产,财务的存在,银行有自己的产品(信用卡,黄金,期货等)有产品就需要有人进行买卖,买卖的人这就是当事人,进行的买卖就是销售,有销售就得有渠道(不管是线上还是线下),在进行买卖,存贷款的时候需要签合同,这就是协议,整体这个交易就是事件,从而对银行的财务,资产产生影响让阿里...

2024-03-15 01:29:00 537

原创 Sentinel 面试题 一般有用 看1 速

Sentinel限流入门Sentinel是什么?(阿里推出的一个流量控制平台防卫兵)类似的Sentinel产品还有那些?(hystrix-一代微服务产品)Sentinel是如何对请求进行限流的?(基于Sentinel依赖提供的拦截器基于Sentinel依赖提供的拦截器)你了解哪些限流算法?( 计数器,令牌桶,漏斗算法,滑动窗口算法....)Sentinel的默认限流算法是什么?(滑动窗口算法)S...

2024-03-15 00:25:00 172

原创 金字塔原理

第1章 为什么要用金字塔结构上一篇←《金字塔原理》→下一篇如果受众希望通过阅读你的文章、听你的演讲或培训,来了解你对某一问题的观点,那么他将面临一项复杂的任务。因为即使你的文章篇幅很短,比如只有两页纸,文章中也会包括大约100个句子。读者必须阅读、理解每一句话,并且寻找每句话之间的联系,前前后后反复思考。如果你的文章结构呈金字塔形,文章的思路自金字塔顶部开始逐渐向下展开,那么读者肯定会觉得...

2024-01-04 00:21:00 864

原创 大数据hadoop理论面试题 一般有用 看1

1、列举几个hadoop生态圈的组件并做简要描述?(1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。(2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。(3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。(4)Hive:基于Hadoop的一个...

2023-12-20 14:56:00 103

原创 集群配置

Redis cluster,10 台机器,5 台机器部署了 Redis 主实例,另外 5 台机器部署了 Redis 的从实例,每个主实例挂了一个从实例,5 个节点对外提供读写服务,每个节点的读写高峰 QPS 可能可以达到每秒 5 万,5 台机器最多是 25 万读写请求每秒。机器是什么配置?32G 内存+ 8 核 CPU + 1T 磁盘,但是分配给 Redis 进程的是 10g 内存,一般线...

2023-09-13 12:22:00 171

原创 java内容偏多 一般有用 看1

2023-09-07 13:06:00 137

原创 尚大数据技术之高频面试题9.0.5

尚硅谷大数据技术之高频面试题版本:V9.0.5目录第 1 章 核心技术...........................................................................................................................101.1 Linux&Shell...................

2023-08-20 16:56:00 1809

原创 BAT面试题汇总及详解(进大厂必看)01

Java基础(珊珊老师,海阳老师)Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别? Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Ja...

2023-06-22 10:59:00 239

原创 BAT面试题汇总及详解(进大厂必看)03

该策略可以 大化地节省CPU资源,却对内存非常不友好。极端情况可能出现大量的过期key没有再次被访问,从而不会被清除,占用大量内存。定期过期:每隔一定的时间,会扫描一定数量的数据库的expires字典中一定数量的key,并清除其中已过期的key。该策略是前两者的一个折中方案。通过调整定时扫描的时间间隔和每次扫描的限定耗时,可以在不同情况下使得CPU和内存资源达到 优的平衡...

2023-06-19 10:08:00 1605

原创 Java集合框架常见面试题

剖析⾯试最常⻅问题之 Java 集合框架集合概述Java 集合概览从下图可以看出,在 Java 中除了以 Map 结尾的类之外, 其他类都实现了 Collection 接⼝。并且,以 Map 结尾的类都实现了 Map 接⼝。说说 List,Set,Map 三者的区别?List (对付顺序的好帮⼿): 存储的元素是有序的、可重复的。Set (注重独⼀⽆⼆的性质): 存储的元素是⽆序的...

2023-06-18 17:39:00 131

原创 字节大佬总结的Java面试资料

1. 目录1. 目录.........................................................................................................................................................12. JVM..............................

2023-06-16 15:08:00 715

原创 RocketMQ 从入门到实战 一般有用 看1

101.1 RocketMQ 核心概念扫盲篇在正式进入 RocketMQ 的学习之前,我觉得有必要梳理一下 RocketMQ 核心概念,为大家学习 RocketMQ 打下牢固的基础。一、RocketMQ 部署架构在 RocketMQ 主要的组件如下:1. NameserverNameserver 集群,topic 的路由注册中心,为客户端根据 Topic 提供路由服务,从而引...

2023-06-16 09:13:00 268

原创 设计模式面试题汇总 一般有用 看1

前⾔我花费了半个多⽉整理汇总了⼀些 Java ⾯试相关的⾼质量 PDF 资料,涵盖 Java基础、并发、JVM、设计模式、数据库、SpringBoot、分布式、消息队列、智⼒题......。如何获取? 在我的公众号“JavaGuide”后台回复“⾯试” 即可获取!软件设计原则有哪些?常⽤的⾯向对象设计原则包括7个,这些原则并不是孤⽴存在的,它们相互依赖,相互补充。开闭原则(Open...

2023-06-15 17:14:00 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除