大数据
文章平均质量分 71
主要内容hadoop/spark/flink/doris等
运维仙人
目前在做大数据运维,会点python/java/go,不定时分享所见,所学,所踩的坑~
展开
-
大数据StarRocks(九):资源隔离实战
自 2.2 版本起,StarRocks 支持资源组管理,集群可以通过设置资源组(Resource Group)的方式限制查询对资源的消耗,实现多租户之间的资源隔离与合理利用。在 2.3 版本中,StarRocks 支持限制大查询,集群可以进一步控制大查询对资源的消耗,避免少数的大查询耗尽系统资源,进而影响系统稳定性。StarRocks 2.5 版本支持通过资源组对导入计算进行资源隔离,从而间接控制导入任务对集群资源的消耗。原创 2024-01-29 20:21:00 · 1449 阅读 · 0 评论 -
大数据StarRocks(七):数据表创建
建表的基本语法[key_desc]参数说明col_name:列名称注意,在一般情况下,不能直接创建以以 __op 或 __row 开头命名的列,因为此类列名被 StarRocks 保留用于特殊目的,创建这样的列可能导致未知行为。如需创建这样的列,必须将 FE 动态参数 allow_system_reserved_names 设置为 TRUE。col_type:列数据类型之前博文数据类型agg_type:聚合类型,如果不指定,则该列为 key 列。否则,该列为 value 列。原创 2024-01-14 07:46:08 · 2592 阅读 · 1 评论 -
clickhouse常规的优化方法
在ClickHouse表中数据存储时,对于一些列尽量不使用Nullable类型存储,因为此类型需要单独创建额外的文件来存储NULL的标记并且Nullable类型列无法被索引,会拖累性能,在数据存储时如果有空值时,我们可以选择在业务中没有意义的值来替代NULL值。ClickHouse 在join 查询时不会主动发起谓词下推的操作,需要每个子查询提前完成过滤操作,需要注意的是,是否执行谓词下推,对性能影响差别很大(新版本中已经不存在此问题,但是需要注意谓词的位置的不同依然有性能的差异)原创 2024-01-10 07:11:42 · 1668 阅读 · 0 评论 -
大数据StarRocks(六) :Catalog
StarRocks 自 2.3 版本起支持 Catalog(数据目录)功能,实现在一套系统内同时维护内、外部数据,方便您轻松访问并查询存储在各类外部源的数据。原创 2024-01-08 07:56:00 · 1821 阅读 · 0 评论 -
大数据StarRocks(五) :数据类型
StarRocks 支持数据类型:数值类型、字符串类型、日期类型、半结构化类型、其他类型。您在建表时可以指定以下类型的列,向表中导入该类型的数据并查询数据。5.1 数值类型SMALLINT 2 字节有符号整数,范围 [-32768, 32767]INT 4 字节有符号整数,范围 [-2147483648, 2147483647]BIGINT 8 字节有符号整数,范围 [-9223372036854775808, 9223372036854775807]LARGEINT 16 字节有符号整原创 2024-01-06 13:05:38 · 2864 阅读 · 0 评论 -
大数据StarRocks(四) :常用命令
这次主要介绍生产工作中Starrocks时的常用命令。原创 2024-01-05 06:55:29 · 2310 阅读 · 1 评论 -
大数据StarRocks(三) StarRocks数据表设计
StarRocks的表和关系型数据库类似, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射.原创 2024-01-04 00:26:27 · 1975 阅读 · 0 评论 -
大数据StarRocks(二) StarRocks集群部署
最终以压测中预期结果最好的机器配置进行申请,如果公司很rich的话,直接用80c/256G的机器配置。4.压测可以采用官网提供的压测工具先进行测试,根据测试数据进行资源调整,然后再要业务数据进行压测一遍。原创 2024-01-03 01:47:46 · 1132 阅读 · 0 评论 -
大数据StarRocks(一) StarRocks概述
StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,它充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。原创 2024-01-02 00:26:16 · 1289 阅读 · 0 评论 -
大数据概念:数据网格和DataOps
数据运维的核心理念是将数据作为一种服务,通过持续集成、持续交付和持续运营的方式,实现数据的快速、可靠和安全的生产、传输和消费。数据运维的主要目标是提高数据的生产率、降低数据的成本、提高数据的质量和可靠性,以及实现数据的合规性和安全性。总的来说,数据运维是一种基于运维理念的数据管理方法,它结合了 DevOps、数据仓库和数据科学等领域的思想和技术,旨在提高数据的质量、可靠性和可用性,从而支持企业的业务发展和创新。数据网格还包括数据消费者、数据生产者、数据管理员等角色,他们共同协作,实现数据的共享和利用。原创 2023-12-31 22:35:21 · 1435 阅读 · 0 评论 -
python定时查询starrocks将结果保存在excel
在工作过程中要定期的更新excel表的信息,每个星期都要去查询strarocks的数据导出结果到excel,俗话说:”不会偷懒的运维不是好运维“,于是写了python小程序解决这个重复的工作,设置定时任务,直接去服务器下载导出的excel表格即可。代码的逻辑简单介绍:将要执行的SQL以名称进行区分保存并放到目录:SQLfileDir,设置结果存放路径:./…/outputdir/。python先查询数据,然后以SQL文件名前缀为excle名称保存,最后移动到指定目录。原创 2023-12-31 10:55:10 · 1020 阅读 · 0 评论 -
大数据集群节点操作系统优化
概述:系统性能是指操作系统完成任务的有效性、稳定性和响应速度。影响Linux操作系统的性能因素有很多,其中包括系统硬件资源、操作系统相关资源、以及应用软件资源。应用运行在Linux操作系统上,怎样才能充分利用操作系统的内存、cpu、硬盘、网络资源,是一个长期探究的课题,也是IT业内一直要面临的问题。本节主要介绍操作系统层面的优化,其中包括硬盘资源,内存,网络资源等。原创 2023-03-07 00:46:39 · 329 阅读 · 0 评论 -
MapReduce数据倾斜产生的原因及其解决方案
例如select a,sum(1) from (select a, b from t group by a,b) group by a;countdistinct、group by、join等操作,触发了shuffle动作,导致全部相同key的值聚集在一个或几个节点上,很容易发生单点问题。对分布不均匀的数据,进行单独计算,首先对key做一层hash,把数据打散,让它的并行度变大,之后进行汇集数据预处理。数据倾斜就是数据的key的分化严重不均,造成一部分数据很多,一部分数据很少的局面。业务数据自带的特性;原创 2023-04-02 10:19:55 · 1329 阅读 · 0 评论 -
大数据技术之集群数据迁移
在大数据集群数据迁移的项目中涉及到很多技术细节,本博客记录了迁移的大致的操作步骤。迁移借用Hadoop自带的插件:distcp。原创 2023-04-20 16:43:38 · 1668 阅读 · 0 评论 -
Hbase Api简单操作(Java)
【代码】Hbase Api简单操作(Java)原创 2023-04-30 20:32:28 · 235 阅读 · 0 评论 -
分包zip压缩,解压报错:invalid zip file with overlapped components (possible zip bomb)
在生产环境中,需要把安装包从本地传到服务器上,传输过程中网络抖动的原因造成大文传输失败。可以将文件分包压缩成200M或500M大小的文件,然后分批传输到服务器。原创 2023-12-26 07:21:00 · 2633 阅读 · 0 评论 -
基于python编写的服务器之间流量传输netflow_exporter
通常企业会在多个机房部署IT系统,在大数据基础服务组件中会集群跨机房部署或是跨机房抽取数据的场景,在抽数任务时间节点没有错开的时候,经常会造成带宽打满的情况,跨机房的带宽费用比较昂贵,不考虑成本去扩跨机房的带宽是不现实的。为了跟踪各服务器之间的网络交互的情况,更好调配抽数任务,用python写了一个netflow_exporter,将服务之间的流量传输进行监控,并将采集的数据接入Prometheus,最后在Grafana上展示。流量走向监控基本思想和实现代码介绍到这里,后面还会继续优化。原创 2023-12-26 00:17:24 · 864 阅读 · 0 评论 -
hadoop集群坏块处理
【代码】hadoop集群坏块处理。原创 2023-12-24 13:07:34 · 602 阅读 · 0 评论 -
阿里云starrocks监控告发至钉钉群
脚本逻辑:抓取sr的be/fe/routine load状态信息,判读是否触发告警,若满足告警条件,则发送告警信息到钉钉群,并艾特对应的责任人。注册机器人链接:https://open.dingtalk.com/document/connector/alarm-subscription。原创 2023-10-17 23:43:24 · 789 阅读 · 0 评论 -
ChunJun编译记录
【代码】ChunJun编译记录。原创 2023-07-24 14:20:18 · 222 阅读 · 0 评论 -
Kafka灵魂28问
而异步复制方式下,Follower 异步的从 Leader 复制数据,数据只要被 Leader 写入 log就被认为已经 commit,这种情况下,如果 leader 挂掉,会丢失数据,kafka 使用 ISR 的方式很好的均衡了确保数据不丢失以及吞吐率。删除的话,那么这些没消费的消息不就丢了。1)缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka 在中间可以起到一个缓冲的作用,把消息暂存在 kafka 中,下游服务就可以按照自己的节奏进行慢慢处理。原创 2023-05-22 22:12:03 · 495 阅读 · 1 评论 -
ansible组件介绍和简单playbook测试
修改配置文件:/etc/ansible/ansible.cfg其实ansible中的多个inventory跟单个文件的区别不是很大,采用多个inventory的好处是可以吧不同环境的主机或不同业务的主机放在不同的Inventory文件里面,方便日常维护。原创 2023-03-07 19:01:32 · 973 阅读 · 0 评论 -
RPC通信原理解析
RPC,全称为Remote Procedure Call,即,是一种计算机通信协议。比如现在有两台机器:A机器和B机器,并且分别部署了应用A和应用B。原创 2023-03-05 15:35:57 · 1036 阅读 · 0 评论 -
flink常用算子介绍
flink任务中【Transformation 数据转换】是对数据进行操作,有 Map、FlatMap、Filter、KeyBy 、Reduce 、Fold 、Aggregations、Window 、WindowAll 、Union 、Window join 、Split 、Select 、Project 等,通过对数据的操作,转换成想要的数据,即是目标数据。KeyBy 在逻辑上是基于 key 对流进⾏分区,相同的 Key 会被分到⼀个分区(这⾥分区指的就是下游算⼦多个并⾏节点的其中⼀个)。原创 2023-02-27 23:19:51 · 480 阅读 · 0 评论 -
抓取namenode 50070 jmx的指标信息
在生产实践过程中,需要把data退役之后需要停机下线,在下线之前需要确认机器是否已下线完成,要去namenode的50070界面上查看显然效率低,为了能够快速拿到节点信息,写了简单的脚本。jmx/50070还有很多信息可以获取,可以需求采集需要的指标,可以转成Prometheus的export,或是入到时序数据库。本文只是用于交流和学习。原创 2023-02-27 23:03:21 · 547 阅读 · 0 评论 -
用python抓取yarn和jstorm界面资源信息在grafana展示
背景:大数据系统分布式计算和存储强大功能推动了科技的进步,而在大数据运维过程中计算资源是时刻要关注的指标。为了能够快速了解集群资源使用率,写了个python脚本将数据入到MySQL,再通过grafana在界面进行展示,当然可以把数据落到时序数据库:tdengine或opntsdb上。本文只用于交流和学习。原创 2023-02-27 22:39:49 · 653 阅读 · 3 评论 -
监控cpu使用率大于500%的任务并发送告警信息
背景:hadoop集群节点存在cpu告警的信息,不知道具体哪个应用造成cpu告警的,编写了脚本获取到占用cpu使用最高的前5个进程,并发送告警。脚本逻辑:首先查到cpu占用率前五的进程,然后获取任务信息的接口,最后整理成告警信息发送。原创 2023-02-27 21:21:00 · 436 阅读 · 0 评论 -
数据库中DML、DDL、DCL的含义及区别
DDL比DML要多,主要的命令有CREATE、ALTER、DROP等,DDL主要是用在定义或改变表(TABLE)的结构,数据类型,表之间的链接和约束等初始化工作上,他们大多在建立表时使用;VB与数据库结合,可以实0现复杂、繁琐数据的一键执行计算,并且可以将结果实时保存到数据库中,而且可以方便的导出数据计算结果文件。有SELECT、UPDATE、INSERT、DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言;转载 2023-02-03 23:28:14 · 1128 阅读 · 0 评论 -
ApacheDoris分析型数据库
上个月得来喜讯,Doris从Apache顺利毕业,成为Apache的顶级项目,也希望国内有更多类似的开源项目。Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后,更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一业务最大可达到上百 TB。Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大规模并行处理)分析型数据库产品。仅需亚秒级响应原创 2022-07-03 23:46:55 · 1131 阅读 · 0 评论 -
Yarn的client和cluster模式比较
原创 2021-02-24 21:46:49 · 132 阅读 · 0 评论 -
[转]查看Zookeeper服务器状态信息的一些命令
安装netcat(nc)yum install nc -y1、Zookeeper服务器当前节点配置信息: echo conf|nc localhost 21812、cons:echo cons|nc localhost 2181 输出当前服务器所有客户端连接的详细信息3、crst:重置所有客户端连接统计信息4、dump:echo dump|nc localhost 2181,输出当前集群的所有会话消息5、envi:echo envi|nc localhost 2181,输出服务器运行时的环境信息转载 2021-02-12 15:07:17 · 1912 阅读 · 1 评论 -
大数据-MapReduce和Yarn技术原理
什么是MapReduce?MapReduce是面向大数据并行处理的计算模型、框架和平台1.MapReduce是一个基于集群的高性能并行计算平台2.MapReduce是一个并行计算与运行软件框架3.MapReduce是一个并行程序设计模型与方法特点:MapReduce基于Google发布的MapReduce论文设计开发,用于大规模集(1 TB)的并行计算。易于编程:程序员仅需描述做什么,具体怎么执行交由系统执行框架去处理高容错性:通过计算迁移或数据迁移等策略提高集群的可用性与容错性良好的扩原创 2021-02-07 21:08:15 · 404 阅读 · 1 评论 -
大数据-HDFS原理
什么是HDFS?HDFS(Hadoop Distribution File System)是基于谷歌发布的GFS论文设计的;出了具有其他文件系统具有的特性之后,hdfs还具有:高容错性:认为硬件总是不可靠的高吞吐量:为大量数据访问的应用提供高吞吐量的支持大文件存储:支持存储TB或PB级的数据HDFS作为Hadoop的基础存储设施,实现一个高容错,分布式,可线性扩展的文件系统HDFS基础系统架构hdfs架构包含三个部分:NameNode:用于存储、生成文件系统的元数据。运行一个实原创 2021-01-20 22:55:37 · 462 阅读 · 0 评论 -
大数据概述
3V体量巨大类型繁多处理速度快5V价值密度低真实准确维基百科:大数据指通过常用软件捕获,管理和处理数据所耗费时间超过可容忍时间的数据集。原创 2020-12-30 08:29:56 · 337 阅读 · 0 评论 -
Hadoop学习开篇总结
最近学习了大数据基础基础知识,并且制作了思维导图:原创 2020-12-30 07:24:05 · 84 阅读 · 0 评论