大数据
文章平均质量分 76
javastart
专注于大数据 AI
展开
-
大数据面试题V3.0,约870篇牛客大数据面经480道面试题_笔经面经_牛客网
大家好,我是蓦然。距离大数据面试题V2.0过去三个多月,V3.0题目基本上就整理好了,所有面试题来源于牛客网上牛友们分享的面经,我主要是整理汇总。2.0版本时,面试题整理了401道题,大约整理了500篇面试题,现在3.0,把当时剩下的370+也整理完了,虽然面经数量有370+,但新题基本上不多了,整理完,共480道题。很多都是以前问过的,所以新增的题目不多。原创 2023-06-15 10:34:22 · 1141 阅读 · 0 评论 -
《CDP企业数据云平台从入门到实践》——如何迁移CDH/HDP到CDP(2)
CDP企业数据云平台从入门到实践》——如何迁移CDH/HDP到CDP(2)《CDP企业数据云平台从入门到实践》——如何迁移CDH/HDP到CDP(1)原创 2023-06-14 13:20:09 · 951 阅读 · 0 评论 -
Flink面试题
为什么使用 Flink 替代 Spark?全局快照首先是一个分布式应用,它有多个进程分布在多个服务器上;其次,它在应用内部有自己的处理逻辑和状态;第三,应用间是可以互相通信的;第四,在这种分布式的应用,有内部状态,硬件可以通信的情况下,某一时刻的全局状态,就叫做全局的快照。回到顶部。转载 2023-05-30 18:01:18 · 1100 阅读 · 0 评论 -
里程碑 | WeDataSphere 一站式开源大数据平台套件全面升级
国家 2035 远景规划提出要加快全面数字化转型的步伐,而“大数据平台”是数字化转型的基础技术之一。对于任何企业来说,建立和维护一个大数据平台都不是一件容易的事情,而建设一个有特色的、完整易用的大数据平台,显然更是一件技术难度极高的事情。基础平台由数据交换、数据分发、计算、存储四大层次组成,关注底层数据传输计算存储能力;功能平台由平台工具、数据工具、应用工具三大层次组成,关注用户各类功能工具需求实现。形成了完整的大数据平台技术体系,提供一站式的丰富数据平台组件及功能支撑。转载 2023-05-15 16:09:06 · 739 阅读 · 0 评论 -
2022盘点工作室常用的API数据接口开发平台
2022盘点工作室常用的API数据接口开发平台_dogstarhuang的博客-CSDN博客原创 2023-04-03 16:39:03 · 109 阅读 · 0 评论 -
dpi数据接入shell脚
#############从ftp服务器拿数据文件,放到hive表里。#在hdfs建立文件路径,将数据文件Put到hdfs。#触发88服务器上面put数据到hdfs的脚本。#批量处理数据文件,将'|' 替换为','#从DCN服务器get数据到本地目录。#拷贝当天的数据文件到88服务器。##############从。cd / #远程服务器文件目录。#获取日期,根据日期抓取文件。#连接spark,修复表分区。#获取感知优良率DPI数据。#下载特定日期的数据文件。原创 2023-03-02 14:49:04 · 452 阅读 · 0 评论 -
深度包检测(DPI)详细介绍
DPI(Deep Packet Inspection)深度包检测技术是在传统IP数据包检测技术(OSI L2-L4之间包含的数据包元素的检测分析)之上增加了对应用层数据的应用协议识别,数据包内容检测与深度解码。既可以检测2~4层,又可以检测应用层。原创 2023-03-02 14:01:28 · 2390 阅读 · 0 评论 -
一站式元数据治理平台——Datahub入门宝典
首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。原创 2023-02-20 08:20:29 · 5921 阅读 · 0 评论 -
数据同步工具—DataX—Web部署使用
这一节主要部署了DataX—Web ,DataX—Web 主要解决了DataX的任务管理、运维的问题,而且有自己的调度,但是在整个数仓中却难以使用,因为我们无法将DataX—Web 和已有的调度系统进行整合。所以比较好的方式是在我们的调度系统中去集成DataX—Web,那这个时候只有任务构建这个模块是我们需要的,其他的监控、数据源管理调度系统已经有了,所以这个东西应用场景有限,只能作为一个参考。原创 2023-02-06 10:57:28 · 5845 阅读 · 1 评论 -
flink 开发平台Dinky 构建 Flink CDC 整库入仓入湖
Dinky 定义了 CDCSOURCE 整库同步的语法,该语法和 CDAS 作用相似,可以直接自动构建一个整库入仓入湖的实时任务,并且对 source 进行了合并,不会产生额外的 Mysql 及网络压力,支持对任意 sink 的同步,如 kafka、doris、hudi、jdbc 等等。面对建立的数据库连接过多,Binlog 重复读取会造成源库的巨大压力,上文分享采用了 source 合并的优化,尝试合并同一作业中的 source,如果都是读的同一数据源,则会被合并成一个 source 节点。转载 2023-01-20 16:36:27 · 5564 阅读 · 1 评论 -
Apache SeaTunnel 分布式数据集成平台
Spark、Flink 都是非常优秀并且流行的大数据计算框架,所以 1.x 版本选了 Spark,2.x 版本将架构设计的更具扩展性,用户可以选择 Spark 或 Flink 集群来做 Apache SeaTunnel 的计算层,当然架构扩展性的考虑也是为以后支持更多引擎准备,说不定已经有某个更先进的计算引擎在路上,也说不定 Apache SeaTunnel 社区自己会实现一个为数据同步量身打造的引擎。成熟稳定:经历大规模生产环境使用和海量数据的检验,具有高性能、海量数据的处理能力;转载 2023-01-06 22:08:08 · 882 阅读 · 0 评论 -
大数据平台作业调度系统详解-理论篇
工作流调度系统做为大数据开发平台的核心组件,牵扯的周边系统众多,自身的业务逻辑也很复杂,根据目标定位的不同,场景复杂度和侧重点的不同,市面上存在众多的开源方案。但也正因为它的重要性和业务环境的高度复杂性,多数有开发能力的公司,还是会二次开发或者自研一套甚至多套系统来支撑自身的业务需求。原创 2022-12-02 09:24:19 · 1609 阅读 · 0 评论 -
AI 杀疯了,NovelAI开源教程
AI 杀疯了,NovelAI开源教程转载 2022-11-04 19:13:07 · 435 阅读 · 0 评论 -
zookeeper集群在线迁移(扩容)详解
(1)以前应用服务的zk配置可以不改(只要配置里有一个zk节点的地址,如果全部节点都迁移了,可能也不需要改,但是要验证),下次应用服务要重新配置新的集群zk链接串。(2)dubbo-admin和monitor可以不重新启动(只要配置里有一个zk节点的地址,如果全部节点都迁移了,可能也不需要改,但是要验证),但是改配置文件,下次启动更健壮。原创 2022-10-17 11:16:12 · 511 阅读 · 0 评论 -
zookeeper集群迁移(扩容)详解
(1)以前应用服务的zk配置可以不改(只要配置里有一个zk节点的地址,如果全部节点都迁移了,可能也不需要改,但是要验证),下次应用服务要重新配置新的集群zk链接串。(2)dubbo-admin和monitor可以不重新启动(只要配置里有一个zk节点的地址,如果全部节点都迁移了,可能也不需要改,但是要验证),但是改配置文件,下次启动更健壮。原创 2022-10-17 11:15:28 · 1551 阅读 · 0 评论 -
正确使用Impala的invalidate metadata与refresh语句
正确使用Impala的invalidate metadata与refresh语句原创 2022-08-04 10:37:51 · 1395 阅读 · 0 评论 -
大数据架构师一定要弄清楚Fair Scheduler和Capacity Scheduler调度器
大数据架构师一定要弄清楚Fair Scheduler和Capacity Scheduler调度器转载 2022-06-29 18:20:42 · 243 阅读 · 0 评论 -
CDH集群之YARN性能调优
CDH集群之YARN性能调优转载 2022-06-25 18:23:55 · 528 阅读 · 0 评论 -
Apache Impala架构解析及与Hive、SparkSQL的性能比较
Apache Impala架构解析及与Hive、SparkSQL的性能比较转载 2022-06-21 14:15:36 · 446 阅读 · 0 评论 -
Yarn中RMApp、RMAppAttempt、RMContainer和RMNode状态机及其状态转移
Yarn中RMApp、RMAppAttempt、RMContainer和RMNode状态机及其状态转移转载 2022-06-19 18:26:49 · 594 阅读 · 0 评论 -
Hive on Tez Mapper 数量计算
Hive on Tez Mapper 数量计算转载 2022-06-12 17:10:46 · 600 阅读 · 0 评论 -
Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎
Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。本文我们将从原理、应用、调优分别讲解Hive所支持的MapReduce、Tez、Spark引擎。我们在之前的文章中:《硬刚Hive|4万字基础调优面试小总结》《当我们在学习Hive的时候在学习什么?「硬刚Hive续集」》对Hive的MapReduce引擎已经做过非常详细的讲解了。在Hive2转载 2022-06-11 10:58:53 · 3168 阅读 · 1 评论 -
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验_是个好男人呀的博客-CSDN博客_hive tez优化转载 2022-05-16 18:28:14 · 218 阅读 · 0 评论 -
spark剖析:spark读取parquet文件会有多少个task
spark剖析:spark读取parquet文件会有多少个task_scx_white的博客-CSDN博客转载 2022-05-14 18:08:06 · 241 阅读 · 0 评论 -
Dr.elephant系统的配置与分析
这个已经几年没有更新,但是可以参考。没有找到更好的监控工具简介Dr.Elephant是Hadoop和Spark性能监控和调优工具。它会自动收集所有的指标,针对指标执行分析任务,并用简易的方式将其展示出来。它的目标是提高开发人员的工作效率,简化任务调优工作以更好的提高集群性能。它使用一组可插拔、可配置、基于规则的启发式(heuristics)来分析Hadoop和Spark任务并给出关于任务性能的详细报告信息,然后,基于该结果给出如何让任务执行得更为有效建议。1.Dr.elepha.原创 2022-05-13 10:50:42 · 926 阅读 · 0 评论 -
如何在Hive中生成Parquet表
本文件时2018,虽然有点老,但是没有找到更好的资料介绍parquet 格式map 数如何在Hive中生成Parquet表 - 云+社区 - 腾讯云转载 2022-05-11 18:57:07 · 1492 阅读 · 0 评论 -
HDFS文件压缩工具,支持各种压缩格式
工具文档https://github.com/mullerhai/HsunTzu/blob/master/README.md核心方法调用将textfile文件类型 压缩成 gz文件类型hadoop jar /data/soft/HsunTzu/HsunTzuPro-beat-2.0.jar "${COMPRESS_HDFS_PATH}" "/" "1" "/data/soft/HsunTzu/info.properties" "2" "0"使用效果压缩前压缩中..转载 2022-05-08 21:43:08 · 253 阅读 · 0 评论 -
Hive插入parquet格式进行压缩
由于几张大表需要备份下线,由于有3T,单机磁盘空间问题,需要先压缩,下载本地,看了不少都比较复杂,了解有这个方面,测试还可以。创建parquet table :create table tabname(a int,b int) STORED AS PARQUET;创建带压缩的parquet table:create table tabname(a int,b int) STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');原创 2022-05-08 21:06:22 · 1563 阅读 · 0 评论 -
hdfs文件压缩
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和ja..原创 2022-05-07 18:39:26 · 2537 阅读 · 0 评论 -
Hadoop 压缩文件命令
Hadoop 压缩文件命令hadoop jar /usr/bin/hadoop/software/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.4.jar \ -Dmapred.reduce.tasks=5 \ -Dmapred.output.compress=true \ -Dmapred.compress.map.output=true \ -Dmapred.outpu..原创 2022-05-07 17:42:44 · 1931 阅读 · 0 评论 -
0631-6.2-如何确认一个Parquet文件是否被压缩
1 环境准备测试环境:1.CDH6.22.集群已开启Kerberos3.Redhat7.41.准备一张文本表,数据文件约6GB。create table if not exists hive_table_test (s1 string,s2 string,s3 string,s4 string,s5 string,s6 string,s7 string,s8 string,s9 string,s10 string,s11 string)ROW FORMAT ...转载 2022-05-07 13:28:26 · 382 阅读 · 0 评论 -
Parquet文件格式解析
介绍Parquet是目前比较流行的大数据文件列存储格式,主流的大数据计算框架都对其有良好的支持,包括spark,hive,impala等。相对于传统的行存储模式,列存储主要有以下优点:可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间。只读取需要的列,支持向量运算,能够获取更好的扫描性能。相对于其它的列式.原创 2022-05-01 16:24:50 · 2967 阅读 · 0 评论 -
hdfs 多个文件合并_处理 HDFS 上的过多小文件的问题?
最近检查发现生产环境 HDFS 上文件和目录数量已经有 70w+ 个,对 namenode 的压力也越来越大,需要对 HDFS 上的小文件进行合并处理,但并非所有文件都可以合并,一般是针对 Hive 表映射在 HDFS 的文件进行合并来减少文件数量,下面整理出来的 3 个处理方法:方法一使用官方工具 parquet-tools 合并指定的 parquet 文件使用 parquet-tools 对多个 parquet 文件进行合并,使用方法:# 合并 HDFS 上的 parquet 文件.原创 2022-04-25 18:50:25 · 5784 阅读 · 2 评论 -
[知识讲解篇113-hdfs 小文件如何处理]
一、什么是小文件小文件是指文件大小明显小于 HDFS 上块(block)大小(默认64MB,在Hadoop2.x中默认为128MB)的文件。如果一个文件的大小不是块大小的 75%,那么它就是一个小文件。然而,小文件问题并不仅仅影响小文件。如果 Hadoop 集群中的大量文件稍微大于块大小的增量,那么也将遇到与小文件相同的挑战。例如,如果块大小为128MB,但加载到 Hadoop 的所有文件都是 136MB,那么将拥有大量小的 8MB 块,好消息是解决此处的小块问题可以设置较大的块大小。..转载 2022-04-24 19:13:56 · 1436 阅读 · 0 评论 -
CDH 生产环境: NameNode is not formatted问题处理
背景因升级JN节点,需要将JN迁移到其他机器,该节点有三台在迁移过程中我迁移其中一台。在HDFS页面进行角色迁移,选择当前角色机器和目标机器,提示需要重启整个集群(前提是需要确保是否有人员在使用)。重启后出现错误导致HA中Master无法启动错误信息引导备用 NameNodeFailed to bootstrap Standby NameNode NameNode (cluster-master): STARTUP_MSG: build = http://github.com/clou..原创 2022-03-25 18:12:54 · 1807 阅读 · 0 评论 -
如何通过CM迁移Zookeeper服务
如何通过CM迁移Zookeeper服务 - 云+社区 - 腾讯云转载 2022-01-26 15:14:01 · 129 阅读 · 0 评论 -
分布式数据库(DorisDB、Clickhouse、TiDB)调研
1. 性能功能特点B站视频:DorisDB VS ClickHouse OLAP PK1.1 DorisDB场量:线上数据应用访问官方网站DorisDB企业版文档DorisDB是鼎石科技由Apache Doris核心研发团队打造的新一代企业级MPP数据库。它继承了Apache Doris项目十多年研发成果,累积了线上数千台服务器稳定运行经验,并在此基础上,对传统MPP数据库进行了开创性的革新。DorisDB重新定义了MPP分布式架构,集群可扩展至数百节点,支持PB级数据规模,是当前..转载 2022-01-19 19:15:09 · 2667 阅读 · 0 评论 -
Clickhouse 实践之路
陌上闻笛关注82021.01.23 18:09:29字数 5,791阅读 5,381背景在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具体案例说明Clickhouse的实践过程。Clickhou...转载 2021-06-22 18:58:23 · 763 阅读 · 0 评论 -
交通数据挖掘技术
https://www.icourse163.org/course/SEU-1458021173原创 2021-04-11 23:21:28 · 788 阅读 · 0 评论 -
大数据平台权限设计分享-Hive库表权限
大数据平台权限设计分享-Hive库表权限权限目标可通过界面管理用户访问hive库表权限,权限设计模型如下图权限模型-思维导图.png 用户拥有hive库表权限列表 image.png 新增hive库权限 image.png -新增hive表权限 image.png -修改hive库表权限 -删除hive库表权限实现思路在hive中执行sql之前,对sql语句进行解析,获取当前操作的类型,如se...转载 2021-03-16 12:10:00 · 462 阅读 · 0 评论