清沐挽曦-CSDN博客

转载 idea整合git

git官网下载https://git-scm.com/download/win。安装程序不用选择全部next安装。3.设置git的https。1.设置git.exx。

2024-01-08 15:07:59 89

(1).存储位置不透明，通过Hash确定数据所在的物理节点，查询任务在所有节点均会执行，如果一个节点性能低，将影响整体，增加了查询的延迟。分布式结构将取消该节点的查询，在其他节点执行.缺点：因为task和Executor是绑定的，如果某个Executor执行过慢或故障，将会导致整个集群的性能就会受限于这个故障节点的执行速度(所谓木桶的短板效应)，批处理架构与MPP架构都是分布式并行处理，将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。

2023-09-19 16:16:56 648

原创数据湖、数据仓、湖仓一体

据湖更有一种“兜底”的感觉，甭管当下有用没有/或者暂时没想好怎么用，先保存着、沉淀着，将来想用的时候，尽管翻牌子就是了，反正都原汁原味的留存了下来。（2）数据湖：支持多种格式存储数据库，结构化数据（如关系型数据库中的表），半结构化数据（如 CSV、JSON 、XML、日志等），非结构化数据。数据的抽取和Schema的设计，都有非常强的针对性，便于业务分析师迅速获取洞察结果，用与决策支持。Lakehouse的结构可以支持更多不同类型的数据，包括文件、视频、音频和系统日志。

2023-09-19 16:15:11 122

原创 EMR(有弹性的MR)和MaxCompute的区别是什么？

以 Hadoop为例，每个ECS Instance上通常都运行了一些daemon进程（例如，NameNode、DataNode、ResouceManager和NodeManager），这些daemon 进程共同组成了Hadoop集群。即EMR有多个ECS Instance(ECS实例)组成，一个ECS Instance可能是NameNode节点，也可能是nodeManager节点。以Hadoop为代表的开源组件，搭建及维护的成本较高，遇见各类配置、网络、参数问题较多，升级时存在不兼容风险，

2023-09-19 16:14:24 609

原创数据中台和数据底座的区别

数据底座：IDM（统一认证平台：统一用户、统一认证、统一授权、统一审计、统一应用管控。如用户短信认证等）、MDM（基础数据治理）、UMC（云平台管理工具）、ESB（数据模型面向系统集成）数据中台：DAP（数据可视化通过图形化、拖拽式配置构建分析主题，实现快速、精准分析，支持领导层的决策）、MDM（基础数据治理）、UMC（云平台管理工具）、ESB（数据模型面向业务集成）1.集成底座的产品规划是IDM+ESB+MDM+UMC，数据中台是MDM+DAP+ESB+UMC，二者都具有MDM、ESB和UMC三个产品，

2023-09-19 16:13:14 2257

转载 hive2

hive2

2022-07-23 17:09:53 166

转载 clickhouse

clickhouse

2022-07-23 17:05:25 1060

转载 Hive排序

Hive中的四种排序order by 、 sort by 、 distribute by 、cluster by首先贴一下官网对于Hive排序的几种方法的介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy总述order by全局排序；对输入的数据做排序，故此只有一个reducer(多个reducer无法保证全局有序)；只有一个reducer，会导致当输入规模较大时，需要较长的计算时间；总结：or

2021-03-22 10:30:15 494

转载 BIRT使用API生成PDF

Birt报表设计步骤：1、下载birt all in one 2.2.1.1，包含eclipse，解开下载文件启动eclipse，必须使用JDK1.5启动eclipse，否则新建工程对话框中没有birt的相关选项2、新建report project和report打开data explorer视图，新建一个data sources，定义数据库连接driver/url/用户名/密码，在"Manage Drivers…"中把jdbc的jar加进来3、新建Report Parameter，设置参数名称、类

2020-06-23 11:10:33 605

转载数据结构分类及八种常见数据结构

一.数据结构分类数据的逻辑结构1.集合：数据结构中的元素之间除了“同属一个集合” 的相互关系外，别无其他关系；2.线性结构：数据结构中的元素存在一对一的相互关系；3.树形结构：数据结构中的元素存在一对多的相互关系；4.图形结构：数据结构中的元素存在多对多的相互关系。数据的存储结构：顺序存储结构：数据元素在内存中的物理存储顺序与他们的逻辑顺序相同链式存储结构：使用若干地址分散的存储单元存储数据元素，逻辑上相邻的数据元素在物理位置上不一定相邻，数据元素之间的关系需要采用附加信息特别指定。c语言采

2020-05-09 11:04:00 7036

转载 hadoop面试题

1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂)2.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失，宕机后直接导致client无法访问，内存中的元数据丢失，但是硬盘中的元数据应该还存在，如果只是节点挂了，重启即可，如果是机器挂了，重启机器后看节点是否能重启，不能重启就要找到原因修复了。但是最终的解决方案应...

2020-04-26 23:13:01 1435

原创 kafka集群搭建

kafka集群搭建先启动zookeeper集群1.安装(1)下载wget http://mirrors.hust.edu.cn/apache/kafka/0.8.2.2/kafka_2.11-0.8.2.2.tgz(2).解压sudo tar -zxvf kafka_2.11-1.1.1.tgz -C /export/server/(3).权限sudo chown -R hadoo...

2020-03-05 23:10:47 392

原创 zookeeper集群搭建

1.安装zookeeperwget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz2.解压zookeepertar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz -C ~/app/3.配置环境变量修改~目录下的隐藏.bash_profile文件 ls -a查看...

2020-03-05 22:13:30 119

原创简单的心跳机制

心跳机制有两个线程:thread1将tag变量改为true,thread2将tag变量改为false.thread1------tag=truethread2------>tag=true------tag=falsethread1------>tag=true------tag=false------tag=truethread2------>tag=true----...

2020-03-05 10:40:35 142

原创 storm中的ack-fail机制详解

一.ack-fail机制ack-fail机制的作用:确保消息不丢失1.需要ackfail时,请为每个tuple生成一个messageID,这个messageId是用来标识你关系的tuple,当这个tuple被完全处理时,storm框架会调用Spout的ack 方法,否则调用fail.至于消息是否重发,完全由自己处理MySpout{private Map buffer = new HashM...

2020-03-05 10:24:06 620

原创 Storm中worker的内部通信

一.worker间通信1.ServerSocket将数据分发到Disruptor队列中以Map<taskId,队列>的形式2.启动一个execute1进程,去Disruptor的Map中根据taskId获取Map<taskId-1,incoming>中对应的元素,放入自己的incoming-queue 队列3.execute线程(有多少个task就有多少个execut...

2020-03-05 10:11:52 190

原创 Storm启动流程

Storm启动流程**client->numbus->zk->supervisor->worker->spout,bolt**storm只负责计算,不负责采集和存储数据----------nimbus(storm程序启动)1.客户端运行storm nimbus 时,回调用storm的python脚本,该脚本中为每个命令编写一个方法,每个方法都可以生成一条相应...

2020-03-05 09:46:55 723

原创 storm集群搭建及numbus,supervisor启动异常

1.安装(1)下载wget https://archive.apache.org/dist/storm/apache-storm-1.1.2/apache-storm-1.1.2.tar.gz(2)创建文件夹mkdir -p /export/server(3)解压tar -zxvf apache-storm-1.1.2.tar.gz -C /export/server(4)重命名...

2020-03-05 09:31:40 833

原创离线计算与流式计算的区别

1.离线计算:批量获取数据,批量传输数据,周期性批量计算数据,数据展示代表技术,flume采集数据,hdfs批量存储数据,mapreduce批量计算数据,hive批量计算数据,task任务调度,sqoop批量导入数据.公司职位:hivesql调度平台Hadoop集群运维数据清洗（脚本语言）元数据管理数据稽查数据仓库模型架构2.流式计算：数据实时产生、数据实时传输、数据实时计...

2020-03-05 09:23:55 1404

原创 windows下使用idea远程链接Hadoop(Linux)

window系统使用idea远程链接Hadoop一.配置环境二.Idea中创建Maven项目,导入依赖三.启动四.FAQ一.配置环境1.将在Linux系统中解压的hadoop版本(.gz后缀),解压到指定目录2.配置HADOOP_HOME环境变量(1)新建环境变量(我解压在F:/)(2)Path变量(3)检验:在dos窗口中输入hadoop3.下载windows下连接hadoo...

2019-11-25 21:19:20 2066 2

dfnkd的博客