大数据
文章平均质量分 89
enjoy编程
Stay hungry, stay foolish.(求知若饥,虚心若愚。)
15年+ Java 全栈与大数据架构老兵,兼具技术深度与业务视野
喜欢使用java、python解决工作、生活中的问题
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何源码编译seaTunnel
如何源码编译seaTunnel原创 2023-11-23 08:58:56 · 932 阅读 · 0 评论 -
pyhive的离线安装及使用示例
pyhive的离线安装及使用示例原创 2023-11-20 19:19:52 · 945 阅读 · 0 评论 -
列式存储格式: 使用Core ORC API的VectorizedRowBatch 读取ORC文件详解
本文针对使用Core ORC API的VectorizedRowBatch 读取ORC文件详解,并给出详细的示例源代码原创 2023-03-18 13:13:16 · 922 阅读 · 0 评论 -
docker--快速启动功能性Hadoop集群进行功能验证
工作时,有时需要快速启动功能性Hadoop集群来测试一些hadoop相关的项目及功能。本文讲解如何基于docker,快速搭建一个功能性Hadoop集群,来测试验证一些功能。原创 2022-12-15 22:15:00 · 701 阅读 · 0 评论 -
Elasticsearch-- cat & cluster 命令使用
本文针对ES的cat及cluster的使用进行总结,方便后续使用原创 2022-09-04 14:01:51 · 1582 阅读 · 0 评论 -
docker for windows--docker-compose 安装elasticsearch + kibana 6.8.x版本
docker for windonws--docker-compose 安装elasticsearch + kibana 6.8.x版本原创 2022-09-04 12:30:34 · 1251 阅读 · 0 评论 -
基于zeppelin JDBC Interpreter进行jdbc数据源的可视化交互分析时,如何设置参数
Zeppelin支持动态创建输入表单,本文以动态表单模板为例,基于zeppelin JDBC Interpreter进行jdbc数据源的可视化交互分析时,如何设置参数原创 2022-01-14 22:15:00 · 754 阅读 · 0 评论 -
如何基于zeppelin JDBC Interpreter进行jdbc数据源的可视化交互分析
Zeppelin 是一个基于Web的notebook提供数据可视化交互分析的WEB程序。通过Zeppelin,你做出可数据驱动的、可交互且可协作的精美文档。通过zeppelin的JDBC Interpreter,可以针对所有jdbc数据源进行可视化交互分析,JDBC Interpreter目前除支持主流的RMDB数据库外,还支持基于spark、flink、hive计算框架进行SQL分析。原创 2022-01-13 22:15:00 · 3281 阅读 · 3 评论 -
数据湖和数据仓库的技术融合催生湖仓一体Data LakeHouse
在过去大概两三年的时间里,数据湖与数据仓库开始出现非常强的相互融合的趋势,各自吸取对方的长处,进入到湖仓一体这样一个时代,已经变成目前的技术热点。湖仓一体【LakeHouse】是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。本文针对数据仓库 DataWarehouse、数据湖 DataLake进行对比,进而描述实现湖仓一体的两个流派。最后讲解湖仓一体的目标、关键特性、落地的方案原创 2022-01-12 22:45:00 · 1865 阅读 · 0 评论 -
数据虚拟化引擎openLooKeng: 不搬运数据,只是数据的连接器
openLooKeng 是一款面向大数据库的数据虚拟化引擎,提供统一 SQL 接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景。同时增强了前置调度、跨源索引、动态过滤、跨源协同、水平拓展等能力。openLooKeng 使用了开源 SQL 引擎 Presto 来提供交互式查询分析基础能力,并继续在融合场景查询、跨数据中心/云、数据源扩展、性能、可靠性、安全性等方面发展,让数据治理、使用更简单。原创 2022-01-06 11:47:30 · 5203 阅读 · 0 评论 -
MLSQL 正式更名 Byzer,会成为面向Data+AI的类SQL通用的标准不?
2021 年 12 月 21 日,冬至, MLSQL 正式更名为 Byzer。Byzer is a SQL-like language, to simplify data pipeline, analytics and AI, combined with built-in algorithms and extensions.Byzer 语言的核心设计理念:万物皆表(Everything is a table). Byzer 会成为面向Data+AI的类SQL通用的标准不?原创 2021-12-21 20:45:00 · 1682 阅读 · 0 评论 -
kafka rebalance故障的处理策略
1. Rebalance 触发与通知1.1. 触发条件Rebalance 的触发条件有三种:当 Consumer Group 组成员数量发生变化新成员加入组成员主动离开组成员崩溃消费者心跳超时,导致 rebalance消费者处理时间过长,导致 rebalance。当订阅主题数量发生变化当订阅主题的分区数发生变化组成员崩溃外,其它都是主动触发的,能比较好地控制。组成员崩溃 则是预料不到、意外发生的,遇到问题的时候也不好排查。但对于组成员崩溃也是有一些通用的处理策略1.原创 2021-11-26 20:45:00 · 3488 阅读 · 1 评论 -
Hive MetaStore 3.1.x 元数据管理库表结构介绍及特色功能
本文以hive metastore 3.1.1000中的库表结构进行分析hive metastore介绍Hive Metastore(HMS)是一项单独的服务,不是Hive的一部分,甚至不必位于同一集群上。hive metastore 用于管理hive的元数据并提供服务。这里的元数据包括:数据库、表、表的模式、目录、分区、索引以及命名空间等。为数据库创建的目录一般在hive数据仓库目录下。在hadoop中的位置Hive metastore Service (HMS) 将Hive表、分区等的元数原创 2021-11-12 21:15:00 · 2616 阅读 · 0 评论 -
数据治理--数据血缘模型【lineage model】的概念及三个层级
数据血缘数据血缘关系:数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。数据血缘模型【lineage model】中的实体包括表、列、函数、RESULTSET、关系和其他实体。实体和关系的组合显示了从一个表/列到其他表/列的血缘如以下SQL解析产生的数据血缘如下:针对员工表创建一个视图,针对NYC城市的员工统计如下信息:每个部门的员工数 与 总员工数的比值每个部门的工资数 与 总工资数的比例CREATE VIEW vsal AS SELEC原创 2021-10-09 11:51:04 · 7384 阅读 · 0 评论 -
Hadoop生态系统的元数据管理和数据治理平台--Atlas 学习
最近在规划数据治理的功能,所以研究了一下Apache AltasAtlas介绍Atlas 是apache下的大数据的元数据管理和数据治理平台,是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。支持对hive、storm、kafka、hbase、sqoop等进行元数据管理以及以图库的形式展示数据的血缘关系。演进Atlas最早由HortonWorks公司开发,用原创 2021-09-27 16:39:48 · 1419 阅读 · 0 评论 -
RoaringBitmap的原理与应用,看这个就够了
RoaringBitmap的原理与应用,看这个就够了针对RoaringBitmap的实现思路,container的类型及读取性能进行介绍,并给出JAVA使用示例原创 2021-08-20 16:39:43 · 23608 阅读 · 3 评论 -
Linux系统中的page cache和buffer cache的概念、机制及kafka、redis等产品如何利用page cache
1 page cache & buffer cache1.1 概念Page cache缓存文件的页以优化文件IO。Buffer cache缓存块设备的块以优化块设备IO。页是逻辑上的概念,因此page cache是与文件系统同级的;块是物理上的概念,因此buffer cache是与块设备驱动程序同级的。在Linux 2.4版本的内核之前,page cache与buffer cache是完全分离的。但是,块设备大多是磁盘,磁盘上的数据又大多通过文件系统来组织,这种设计导致很多数据被缓存了原创 2021-08-12 15:52:32 · 2526 阅读 · 1 评论 -
LSM Tree介绍及其应用
1. LSM Tree介绍1.1 概念B+树读效率高而写效率差;log型文件操作写效率高而读效率差;因此要在排序和log型文件操作之间做个折中,于是就引入了log-structed merge tree模型,通过名称可以看出LSM既有日志型的文件操作,提升写效率,又在每个sstable中排序,保证了查询效率主要发展阶段如下:LSM-tree起源于 1996 年的一篇论文《The Log-Structured Merge-Tree (LSM-Tree)》,后续发展如下:FAST’16 的《Wis原创 2021-07-26 10:28:34 · 1450 阅读 · 0 评论 -
elasticsearch的master选举
ZenDiscoveryZenDiscovery是ES自己实现的一套用于节点发现和选主等功能的模块7.x之后的ES采用Raft算法进行选主,没有依赖Zookeeper等工具, 详见官方文档涉及的配置如下:discovery.seed_hosts: [“host1”, “host2”] Pass an initial list of hosts to perform discovery when this node is started:cluster.initial_master_nodes:原创 2021-07-23 17:58:30 · 2323 阅读 · 1 评论 -
Spark性能优化--如何解决数据倾斜
https://www.cnblogs.com/xiaodf/p/6055803.htmlhttps://blog.51cto.com/u_14048416/2338651https://www.cnblogs.com/tongxupeng/p/10259553.htmlhttps://blog.csdn.net/feng12345zi/article/details/79816936?utm_term=spark%E6%95%B0%E6%8D%AE%E5%80%BE%E6%96%9C%E8%A7%A原创 2021-07-22 19:07:26 · 940 阅读 · 1 评论 -
HDFS的数据存储、压缩、纠删码及节省存储的方法
1 数据分块存储+副本的策略数据分块存储+副本的策略是HDFS保证可靠性和性能的关键,原因如下:文件分块存储之后按照数据块来读,提高了文件随机读的效率和并发读的效率;保存数据块若干副本到不同的机器节点实现可靠性的同时也提高了同一数据块的并发读效率;数据分块是非常切合MapReduce中任务切分的思想2 副本存放策略通常情况下,当复制因子为3时,HDFS的放置策略如下:如果writer在datanode上,在本地机器上放置一个副本,否则在与writer相同机架的datanode上随机选择一原创 2021-07-20 16:27:43 · 1855 阅读 · 3 评论 -
HDFS HA 高可用机制详解
1 背景在Hadoop 2.0.0之前,NameNode是HDFS集群中的单点故障(SPOF)。每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。这主要从如下两个方面影响了HDFS集群的可用性:在发生意外事件(如机器崩溃)时,集群将不可用,直到重新启动NameNode。提前计划的集群运维事件(如NameNode机器上的软件或硬件升级)将导致集群的窗口停机。HDFS的高可用性解决了上述问题,通过在同一个集群中运行2个以上的namenode,其中一个作为active, 其它作为原创 2021-07-20 14:26:11 · 2573 阅读 · 0 评论 -
大数据文件格式对比:Parquet 与ORC 对比
目前两者都作为Apache的顶级项目来进行维护,但是无论是设计的思路还是合理性都是ORCFile更为优秀.但是或许是因为背后所主导的力量不同,毕竟是出身名门,在各个存储系统的支持上,和实际的运用之中,Parquet还是占了很大的优势Apache ORCORC(OptimizedRC File)存储源自于RC(RecordColumnar File)这种存储格式,RC是一种列式存储引擎,对schema演化(修改schema需要重新生成数据)支持较差,而ORC是对RC改进,但它仍对schema演化支持较差原创 2021-07-16 18:06:20 · 1854 阅读 · 2 评论 -
数据仓库系列:星型模型和雪花型模型
在实际工作中多维分析的商业智能解决方案,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。星型模型星型模型:是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;如下图:星型模型星型架构是一种非正规化的原创 2021-01-12 14:06:02 · 6316 阅读 · 0 评论 -
端到端大数据平台数据仓库建设规范
1 数据分层规范数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support),特点如下:连接全域数据实现数字化闭环体现业务特征自动化建模高效数据运维助力业务智能通过数据仓库,实现统一数据模型、统一采集、统一技术架构。1.1 接口层接口层面向外围数据源,负责数据源的管理及统一采集工作,管理外部数据的来源、数据结构、接口方式、格式要求、质量要求等信息。数据模型与源系统基本保持一致。接口层数据按实时或准实时、按天、按月更新。1.1.1 设计目标原创 2021-07-16 10:48:34 · 2290 阅读 · 0 评论 -
RabbitMQ 和 Kafka选哪个?
不同的业务场景需要不同的解决方案,选错一个方案会严重影响你对软件的设计、开发、维护能力。RabbitMQ和Kafka在底层实现方面是有许多差异,需要根据你的特殊使用场景进行选择。本文截图使用的来自:https://zhuanlan.zhihu.com/p/1612244181 异步消息模式异步消息模式是解耦消息的生产和处理的一种解决方案。消息系统有两种消息模式:消息队列模式、发布/订阅模式1.1 消息队列模式消息队列用于解耦生产者和消费者。多个生产者可以向同一个消息队列发送消息;但是一个消息在被原创 2021-07-09 15:22:44 · 1140 阅读 · 0 评论 -
ElasticSearch的堆内存设置与优化
Elasticsearch默认安装后设置的堆大小是1GB,对于生产环境来说,这个配置太小了。生产环境需要根据实际需求,调整JVM的堆大小。1. 启动时脚本调用顺序es的启动脚本是bin下的elasticsearch, 在启动时,脚本调用顺序如下: sourceelasticsearch-env, 设置ES_HOME、ES_CLASSPATH、ES_PATH_CONF、ES_DISTRIBUTION_FLAVOR等变量的值,并配置HOSTNAME的环境变量,通过org.elasticsear..原创 2021-05-27 17:49:52 · 3691 阅读 · 0 评论 -
基于 grpc 手撸一个 RPC 框架
1 手撸RPC框架的原因常见的 RPC 框架有: 比较知名的如阿里的Dubbo、google的gRPC、Go语言的rpcx。 但只有gRPC支持streaming模式。gRPC 是在任何环境中运行的现代开源高性能 RPC 框架,基于 HTTP/2 标准设计,带来诸如双向流、流控、头部压缩、单 TCP 连接上的多复用请求等特。这些特性使得其在移动设备上表现更好,更省电和节省空间占用。为了理解如何基于gRPC框架,开发server/client程序,所以基于grpc手撸一个RPC框架源代码存放在原创 2021-03-01 15:11:43 · 445 阅读 · 0 评论
分享