数智派-CSDN博客

原创 python多线程连接MySQL查数案例

该博文展示地是基本示例，实际使用时可能需要进行调整。例如，你可能需要添加错误处理来确保数据库连接问题不会导致脚本崩溃，或者你可能需要调整查询以匹配你的数据。此外，你需要确保你的系统有足够的内存和处理能力来支持并行处理。如果数据库查询非常消耗资源，你可能需要考虑使用并发处理而不是并行处理，以避免系统过载。

2024-02-06 08:23:11 738

以下案例仅为 MySQl 查询优化的冰山一角，实际应用中可能需要根据具体的数据模型、查询模式和业务需求进行更为深入的优化。通常，优化包括选择正确的查询策略、创建和维护适当的索引、分析和调整查询执行计划、以及考虑缓存和数据结构的设计等多个方面。通过持续的学习和实践，可以逐步提高 MySQL 数据库的查询效率，为应用系统带来更好的性能和用户体验。EXPLAIN 可以帮助我们了解查询语句的执行计划，找出潜在的性能瓶颈。仅检索所需的列可以减少数据传输量，提高查询效率。为查询频繁的列创建索引可以显著提高查询速度。

2024-02-06 00:05:29 1798 1

原创 hadoop必记知识点（3）

需要注意的是，Combiner的输出和Reduce的输出类型应该是一样的，而且Combiner的函数应该是可合并的，即多个Combiner的输出可以被合并成一个单一的输出。请求序列化：在客户端发起RPC请求时，请求中的参数需要被序列化。方法调用：在请求反序列化完成后，服务端的Hadoop RPC服务端代码会调用请求中指定的方法，并使用反序列化后的参数作为方法的参数。完全分布式模式：这是Hadoop的正式运行模式，所有的Hadoop组件在不同的节点上运行，每个节点都是集群中的一员，能够处理一些大型数据。

2024-01-29 20:23:38 1049

原创大数据StarRocks(九)：资源隔离实战

自 2.2 版本起，StarRocks 支持资源组管理，集群可以通过设置资源组（Resource Group）的方式限制查询对资源的消耗，实现多租户之间的资源隔离与合理利用。在 2.3 版本中，StarRocks 支持限制大查询，集群可以进一步控制大查询对资源的消耗，避免少数的大查询耗尽系统资源，进而影响系统稳定性。StarRocks 2.5 版本支持通过资源组对导入计算进行资源隔离，从而间接控制导入任务对集群资源的消耗。

2024-01-29 20:21:00 1823

原创 hadoop必记知识点（2）

在 Hadoop 集群进行计算时，可能会遇到多个瓶颈，但最主要的通常包括网络带宽、存储以及 CPU 处理能力。网络带宽：Hadoop 集群中的各个节点需要频繁地进行数据传输和通信，这就需要网络带宽足够大。如果网络带宽不足，节点之间的数据交换将会变得缓慢，从而影响整个集群的计算性能。存储：Hadoop 集群在进行计算时，需要大量的数据存储空间。如果存储资源不足，可能会导致数据丢失或者无法存储新的数据，进而影响到集群的计算能力。

2024-01-23 00:35:29 1037

原创 hadoop必记知识点（1）

传统的单机数据库或服务器在面对海量数据时，处理速度慢，扩展性差，而Hadoop通过分布式架构，可以将海量数据分散存储在多个节点上，并行处理，从而大幅提高处理速度和扩展性。同时，Hadoop还支持各种数据处理和分析模式，包括批处理、流处理、图处理等，可以满足各种复杂的数据需求。9.Apache Flink 是 Hadoop 生态圈中的一个重要组件，它是一个开源的、用于处理大数据的流处理框架。Apache Flink 是 Hadoop 生态圈中的一个重要组件，它是一个开源的、用于处理大数据的流处理框架。

2024-01-21 22:51:11 1065

原创 DBA技术栈MongoDB: 数据增改删除

该博文主要介绍mongoDB对文档数据的增加、更新、删除操作。

2024-01-21 21:22:06 1064

原创 DBA技术栈MongoDB: 索引创建和查询优化

MongoDB可以在一个集合上建立一个或多个索引，而且必须为在字段_id建立一个索引，建索引的目的与关系数据库一样，就是为了提高对数据库的查询效率；一旦索引创建好，MongoDB会自动地根据数据的变化维护索引，如果索引太大而不能全部保存在内存中，将被移到磁盘文件上，这样会影响查询性能，因此要时刻监控索引的大小，保证合适的索引在内存中；监控一个查询是否用到索引，可以在查询语句后用explain命令或profile()方式进行监控。

2024-01-20 22:48:56 1622

原创 DBA技术栈MongoDB：简介

MongoDB是一个可扩展、开源、表结构自由、用C++语言编写且面向文档的数据库，旨在为Web应用程序提供高性能、高可用性且易扩展的数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富、最像关系数据库的NoSQL数据库；它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，可以实现类似关系数据里单表查询的绝大部分功能，而且还支持对数据建立索引。MongoDB是一个面向文档的数据库，不支持关系数据库中的join操作和事务。

2024-01-19 00:23:11 1528

原创大数据StarRocks(八)：集群扩缩容

StarRocks FE 节点分为 Follower 节点和 Observer 节点。Follower 节点参与选举投票和写入，Observer 节点只用来同步日志，扩展读性能。DROP 会立刻删除 BE 节点，丢失的副本由 FE 调度补齐，而 DECOMMISSION 先保证副本补齐，然后再删除 BE 节点。新增节点设定为 Follower 或 Observer 节点。完成后，您可以查看节点信息验证缩容是否成功。完成后，您可以查看节点信息验证缩容是否成功。将新增节点设定为 Observer 节点。

2024-01-19 00:17:29 881

原创 python异常修复：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xbf in position 391: illegal multibyte

在使用configparser模块读取配置文件的参数是，出现如图报错。

2024-01-15 23:17:14 1324

原创 DBA技术栈（三）：MySQL 性能影响因素

大部分人都一致认为一个数据库应用系统（这里的数据库应用系统概指所有使用数据库的系统）的性能瓶颈最容易出现在数据的操作方面，而数据库应用系统的大部分数据操作都是通过数据库管理软件所提供的相关接口来完成的。所以数据库管理软件也就很自然的成为了数据库应用系统的性能瓶颈所在，这是当前业界比较普遍的一个看法。数据库有使用场景的适配性，不能认为关系型数据库是万能的。比如大批量数据的离线报表，应借助hive离线数仓去解决，设计到视频/图片等数据可以借助hbase或是图数据库等。

2024-01-15 23:07:09 1596

原创大数据StarRocks(七)：数据表创建

建表的基本语法[key_desc]参数说明col_name：列名称注意，在一般情况下，不能直接创建以以 __op 或 __row 开头命名的列，因为此类列名被 StarRocks 保留用于特殊目的，创建这样的列可能导致未知行为。如需创建这样的列，必须将 FE 动态参数 allow_system_reserved_names 设置为 TRUE。col_type：列数据类型之前博文数据类型agg_type：聚合类型，如果不指定，则该列为 key 列。否则，该列为 value 列。

2024-01-14 07:46:08 3419 1

原创 SQL优化小技巧

尽量避免使⽤where 1=1，优化：⽤代码拼接sql，需要where的地⽅加where，需要and的地⽅加and。尽量避免使⽤游标，因为游标的效率较差，如果游标操作的数据超过1万⾏，那么就应该考虑改写。唯⼀索引可以确保每⼀⾏数据的唯⼀性，通过使⽤索引，可以在查询的过程中使⽤优化隐藏器，提⾼系统的性。在使⽤索引字段作为条件时，如果该索引是复合索引，那么必须使⽤到该索引中的第⼀个。才能保证系统使⽤该索引，否则该索引将不会被使⽤，并且应尽可能的让字段顺序与索引顺序相⼀致。

2024-01-11 23:09:37 488

原创 clickhouse常规的优化方法

在ClickHouse表中数据存储时，对于一些列尽量不使用Nullable类型存储，因为此类型需要单独创建额外的文件来存储NULL的标记并且Nullable类型列无法被索引，会拖累性能，在数据存储时如果有空值时，我们可以选择在业务中没有意义的值来替代NULL值。ClickHouse 在join 查询时不会主动发起谓词下推的操作，需要每个子查询提前完成过滤操作，需要注意的是，是否执行谓词下推，对性能影响差别很大（新版本中已经不存在此问题，但是需要注意谓词的位置的不同依然有性能的差异）

2024-01-10 07:11:42 2122

原创大数据StarRocks(六) ：Catalog

StarRocks 自 2.3 版本起支持 Catalog（数据目录）功能，实现在一套系统内同时维护内、外部数据，方便您轻松访问并查询存储在各类外部源的数据。

2024-01-08 07:56:00 2363

原创大数据StarRocks(五) ：数据类型

StarRocks 支持数据类型：数值类型、字符串类型、日期类型、半结构化类型、其他类型。您在建表时可以指定以下类型的列，向表中导入该类型的数据并查询数据。5.1 数值类型SMALLINT 2 字节有符号整数，范围 [-32768, 32767]INT 4 字节有符号整数，范围 [-2147483648, 2147483647]BIGINT 8 字节有符号整数，范围 [-9223372036854775808, 9223372036854775807]LARGEINT 16 字节有符号整

2024-01-06 13:05:38 4426

原创大数据StarRocks(四) ：常用命令

这次主要介绍生产工作中Starrocks时的常用命令。

2024-01-05 06:55:29 3766 2

原创 DBA技术栈（二）：MySQL 存储引擎

上个业余的图：MyISAM 存储引擎是 MySQL 默认的存储引擎，也是目前 MySQL 使用最为广泛的存储引擎之一。他的前身就是我们在 MySQL 发展历程中所提到的 ISAM，是 ISAM 的升级版本。在 MySQL最开始发行的时候是 ISAM 存储引擎，而且实际上在最初的时候，MySQL 甚至是没有存储引擎这个概念的。

2024-01-04 22:43:31 1607

原创大数据StarRocks(三) StarRocks数据表设计

StarRocks的表和关系型数据库类似, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射.

2024-01-04 00:26:27 2713

原创 DBA技术栈（一）：Mysql简介和架构基本组成

MySQL 是由 MySQL AB 公司（目前已经被 SUN 公司收归麾下）自主研发的，目前 IT 行业最流行的开放源代码的数据库管理系统之一，它同时也是一个支持多线程高并发多用户的关系型数据库管理系统。MySQL 数据库以其简单高效可靠的特点，在最近短短几年的时间就从一个名不见经传的数据库系统，变成一个在 IT 行业几乎是无人不知的开源数据库管理系统。从微型的嵌入式系统，到小型的 web 网站，至大型的企业级应用，到处都可见其身影的存在。

2024-01-03 08:21:24 1819

原创大数据StarRocks(二) StarRocks集群部署

最终以压测中预期结果最好的机器配置进行申请，如果公司很rich的话，直接用80c/256G的机器配置。4.压测可以采用官网提供的压测工具先进行测试，根据测试数据进行资源调整，然后再要业务数据进行压测一遍。

2024-01-03 01:47:46 1422 3

原创大数据StarRocks(一) StarRocks概述

StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库，它充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果，在业界实践的基础上，进一步改进优化、升级架构，并增添了众多全新功能，形成了全新的企业级产品。

2024-01-02 00:26:16 1429

原创大数据概念：数据网格和DataOps

数据运维的核心理念是将数据作为一种服务，通过持续集成、持续交付和持续运营的方式，实现数据的快速、可靠和安全的生产、传输和消费。数据运维的主要目标是提高数据的生产率、降低数据的成本、提高数据的质量和可靠性，以及实现数据的合规性和安全性。总的来说，数据运维是一种基于运维理念的数据管理方法，它结合了 DevOps、数据仓库和数据科学等领域的思想和技术，旨在提高数据的质量、可靠性和可用性，从而支持企业的业务发展和创新。数据网格还包括数据消费者、数据生产者、数据管理员等角色，他们共同协作，实现数据的共享和利用。

2023-12-31 22:35:21 1561 1

原创 python定时查询starrocks将结果保存在excel

在工作过程中要定期的更新excel表的信息，每个星期都要去查询strarocks的数据导出结果到excel，俗话说：”不会偷懒的运维不是好运维“，于是写了python小程序解决这个重复的工作，设置定时任务，直接去服务器下载导出的excel表格即可。代码的逻辑简单介绍：将要执行的SQL以名称进行区分保存并放到目录：SQLfileDir，设置结果存放路径：./…/outputdir/。python先查询数据，然后以SQL文件名前缀为excle名称保存，最后移动到指定目录。

2023-12-31 10:55:10 1208

原创 starrocks集群fe/be节点进程守护脚本

自建starrocks集群，有时候服务会挂掉，无法自动拉起服务，于是采用supervisor进行进程守护。可能是版本的原因，supervisor程序总是异常，无法对fe//be进行守护。于是写了个简易脚本。

2023-12-27 23:58:51 923

原创 (promethues）node_exporter注册自定义监控数据，简单展示

Collect(ctx context.Context) (metrics, error): 此方法用于收集和返回自定义指标。Describe(ctx context.Context, ch chan

2023-12-27 23:50:38 1775

原创分包zip压缩，解压报错：invalid zip file with overlapped components (possible zip bomb)

在生产环境中，需要把安装包从本地传到服务器上，传输过程中网络抖动的原因造成大文传输失败。可以将文件分包压缩成200M或500M大小的文件，然后分批传输到服务器。

2023-12-26 07:21:00 3408

原创基于python编写的服务器之间流量传输netflow_exporter

通常企业会在多个机房部署IT系统，在大数据基础服务组件中会集群跨机房部署或是跨机房抽取数据的场景，在抽数任务时间节点没有错开的时候，经常会造成带宽打满的情况，跨机房的带宽费用比较昂贵，不考虑成本去扩跨机房的带宽是不现实的。为了跟踪各服务器之间的网络交互的情况，更好调配抽数任务，用python写了一个netflow_exporter，将服务之间的流量传输进行监控，并将采集的数据接入Prometheus，最后在Grafana上展示。流量走向监控基本思想和实现代码介绍到这里，后面还会继续优化。

2023-12-26 00:17:24 981

原创 go编写的netflow _exporter，本地测试代码

【代码】go编写的netflow _exporter，本地测试代码。

2023-12-26 00:03:11 535

原创 hadoop集群坏块处理

【代码】hadoop集群坏块处理。

2023-12-24 13:07:34 767

原创 CreateProcess error=216, 该版本的 %1 与你运行的 Windows 版本不兼容。请查看计算机的系统信息，然后联系软件发布者。

Error running ‘go build hello.go’: Cannot run program “C:\Users\Administrator\AppData\Local\Temp___go_build_hello_go.exe” (in directory “G:\go\workspace”): CreateProcess error=216, 该版本的 %1 与你运行的 Windows 版本不兼容。解决方法：package workspace 改成package main。

2023-12-24 13:05:45 2047

原创阿里云starrocks监控告发至钉钉群

脚本逻辑：抓取sr的be/fe/routine load状态信息，判读是否触发告警，若满足告警条件，则发送告警信息到钉钉群，并艾特对应的责任人。注册机器人链接：https://open.dingtalk.com/document/connector/alarm-subscription。

2023-10-17 23:43:24 889

原创 flink-cdc-connectors-release-2.4.1编译记录

【代码】flink-cdc-connectors-release-2.4.1编译记录。

2023-09-13 16:39:42 513

原创 ChunJun编译记录

【代码】ChunJun编译记录。

2023-07-24 14:20:18 341

原创 hive/spark数据倾斜解决方案

数据倾斜主要表现在，mapreduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多)，这条Key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。

2023-06-21 08:31:44 2043

原创 Hadoop/Hive/Spark小文件处理

小文件指的是文件size比HDFS的block size小很多的文件。Hadoop适合处理少量的大文件，而不是大量的小文件。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则namenode大约需要2G空间。如果存储1亿个文件，则namenode需要20G空间。这样namenode内存容量严重制约了集群的扩展。其次，访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开

2023-06-15 10:50:02 4110 1

原创 Linux性能检测常用命令

keyword可以是以下的一个或者多个：DEV, EDEV, NFS, NFSD, SOCK, IP, EIP, ICMP, EICMP, TCP, ETCP, UDP, SOCK6, IP6, EIP6, ICMP6, EICMP6 和UDP6。r/s, w/s, rkB/s, wkB/s，表示每秒向I/O设备发出的reads、writes、read Kbytes、write Kbytes的数量。avgqu-sz，表示请求被发送给I/O设备的平均时间，若该值大于1，则表示I/O设备可能已经饱和；

2023-06-14 16:46:24 472

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

chunjun编译依赖

CentOS7.4系统上PG库一键部署包：Postgres-12.3-v2-20200802.tar.gz

什么是Docker.emmx

kube-install-for-k8s1.21-v0.5.0.tgz1

Redis-5.0.5-v2-20200803.tar.gz

Postgres-12.3-v1-20200802.tar.gz

mysql-backup

Nginx-1.19.0-20200804.tar.gz

Postgres-10.12.1v-20200803.tar.gz

空空如也