自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 资源 (2)
  • 收藏
  • 关注

原创 FE高可用与BE扩缩容详解

当FE处于高可用部署时(1个Master,2个Follower),我们建议通过增加ObserverFE来扩展FE的读服务能力。其中所有Follower角色组成一个选举组,如果Master状态的Follower宕机,则剩下的Follower会自动选出新的Master,保证写入高可用。默认一个集群,只能有一个Master状态的Follower角色,可以有多个Follower和Observer,同时需保证Follower角色为奇数个。BE扩容后,Doris会自动根据负载情况,进行数据均衡,期间不影响使用。

2024-07-11 18:31:15 28

原创 Doris数据操作分类详解

4、SelectDB提供了免费的可视化的数据迁移工具X2Doris,目前支持了Apache Doris/Hive/Kudu、StarRocks数据库往Doris迁移的工作。FE会根据tablet成功副本数判断导入是否成功,如果成功,该导入的事务被commit,导入数据可见。Label的主要作用是唯一标识一个导入任务,并且能够保证相同的Label仅会被成功导入一次。如果失败,该导入的事务会被rollback,相应的tablet也会被清理。Doris导入任务中,BE会提交写入成功的Tablet ID到FE。

2024-07-11 17:14:46 697

原创 Doris冷热数据分层实现

3、冷数据Compaction后,合并前的rowset因为还可能被其他Replica使用不能立即删除,但是最终FollowerReplica都使用了最新的合并后的rowset,BE 参数cold_data_compaction_interval_sec可以设置执行冷数据的 Compaction 的时间间隔,默认是 1800,单位:秒,即半个小时。BE参数remove_unused_remote_files_interval_sec可以设置冷数据的垃圾回收的时间间隔,默认是21600,单位:秒,即6个小时。

2024-07-11 16:27:45 163

原创 Doris数据表、分区、分桶设计详解

Doris 的Key列是建表语句中指定的列,建表语句中的关键字unique key或aggregate key或duplicate key后面的列就是Key列,除了Key列剩下的就是Value列。1、Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。虽然同样无法利用预聚合的特性,但是不受聚合模型的约束,可以发挥列存模型的优势(只读取相关列,而不需要读取所有Key列)这种方式可以将经常一起查询的列存储在同一个桶中,提高查询效率。

2024-07-11 16:10:30 146

原创 Doris架构解析

Sorted Compound Key Index,可以最多指定三个列组成复合排序键,通过该索引,能够有效进行数据裁剪,从而能够更好支持高并发的报表场景。Shuffle Join适用于两个表的大小都比较大,需要进行数据分区操作,然后将数据分布到不同的工作节点上进行JOIN操作。向量化查询,所有的内存结构能够按照列式布局,能够达到大幅减少虚函数调用、提升Cache命中率,高效利用SIMD指令的效果。CBO和RBO结合的优化策略,RBO支持常量折叠、子查询改写、谓词下推等,CBO支持Join Reorder。

2024-07-11 13:52:43 93

原创 物化视图VS普通视图

物化视图(Material View)是包括一个查询结果的数据库对象,它是远程数据的的本地副本,或者用来生成基于数据表求和的汇总表。由于物化视图存储了实际的数据,因此在查询时可以直接返回结果而无需重新计算,从而提高了查询性能。普通视图在查询时需要执行其定义的SQL语句来获取数据,性能相对较差。物化视图在基表数据发生变化时需要更新以保持数据的一致性。普通视图在查询时只是执行其定义的SQL语句来获取数据。普通视图只是保存SQL定义,不会存储实际的数据。物化视图存储基于远程表的数据,也可以称为快照。

2024-07-11 11:37:53 186

原创 sql查询优化器-CBO和RBO详解

然后CBO会通过根据统计信息(Statistics)和代价模型(Cost Model)计算各种可能“执行计划”的“代价”,即COST,从中选用COST最低的执行方案,作为实际运行方案。在RBO中,有着一套严格的使用规则,只要你按照规则去写SQL语句,无论数据表中的内容怎样,也不会影响到你的“执行计划”,也就是说RBO对数据不“敏感”。CBO依赖数据库对象的统计信息,统计信息的准确与否会影响CBO做出最优的选择。该优化器按照硬编码在数据中的一系列规则来决定SQL的执行计划。

2024-07-11 11:14:34 86

原创 OLAP中Join机制分析

这种JOIN操作需要对数据进行预处理,将相同键值的数据放到同一个分区中,然后将两个表的分区放到同一个节点上进行JOIN操作,以避免数据传输和网络通信的瓶颈。2、Shuffle Join 适用于两个表的大小都比较大,需要进行数据分区操作,然后将数据分布到不同的工作节点上进行JOIN操作。这种JOIN操作的好处在于避免了大量的数据传输,减少了网络传输的开销,但是适用于一个表的大小较小的情况。在Colocate Join中,相同的键值对会被分配到相同的工作节点上,以避免某些节点负载过重的问题。

2024-07-11 11:02:28 76

原创 数据平台-数据中台整体规划

2024-07-10 19:44:37 86

原创 数据中台-大数据平台管理规范

2024-07-10 19:22:49 58

原创 OA、CRM、ERP、MES、BI、BPMS等企业系统解释

包括生产计划管理、生产调度管理、工艺管理、质量管理等功能模块,帮助企业提高生产效率和质量水平。包括生产管理、采购管理、库存管理、财务管理等功能模块,帮助企业实现资源的优化配置和管理。包括招聘管理、培训管理、绩效管理、薪酬管理等功能模块,帮助企业提高员工满意度和管理效率。包括采购管理、供应商管理、物流管理、库存管理等功能模块,帮助企业实现供应链的协同和优化。包括入库管理、出库管理、库存管理、配送管理等功能模块,帮助企业提高仓库管理效率和准确性。

2024-07-10 15:59:52 265

原创 zookeeper命令详解和超级用户配置

4.执行命令进入zkCli模式:/usr/hdp/zookeeper/bin/zkCli.sh,再执行addauth digest super:superpw认证身份,这样就具备超级管理员角色,可以操作任意节点了。/usr/hdp/3.1.0.0-78/zookeeper/bin/zkCli.sh -server 主机名:2181。2.编辑/usr/hdp/zookeeper/bin/zkServer.sh,添加一些配置。./zkCli.sh -server 主机名:2181!

2024-07-10 07:58:41 190

原创 Openshift命令详解

oc adm policy add-cluster-role-to-user cluster-admin admin #创建用户admin 并赋予集群管理员角色。oc delete pod deviosow-1828 --namespace=kube-system --grace-period=0 --force #强制删除。= #绑定标签。$ oc adm manage-node nodename --list-pods #查看一个节点上运行的所有pod。

2024-07-09 17:42:24 703

原创 Docker命令详解

docker diff Name/ID # 列出一个容器里面被改变的文件或者目录,list列表会显示出三种事件,A 增加的,D 删除的,C 被改变的。docker run -i -t image_name /bin/bash # 交互式进入容器中,启动一个容器,在其中运行指定命令。docker push new_image_name # 发布docker镜像,将镜像推送至远程仓库,默认为 Docker Hub。docker rm -f Name/ID # 从本地移除一个或多个指定的容器。

2024-07-09 17:38:03 448

原创 linux tar/uniq/sed命令使用

j通过bzip2方式压缩或解压,最后以.tar.br2 为后缀。-z通过gzip方式压缩或解压,最后以.tar.gz 为后缀。-c新建打包文件,同 -v一起使用 查看过程中打包文件名。-r表示增加文件,把要增加的文件追加在压缩文件的末尾。-c,在每行前加上表示相应行目出现次数的前缀编号。-w,对每行第N 个字符以后的内容不作对照。-t表示查看文件,查看文件中的文件内容。-v压缩或解压过程中,显示过程。-i,在比较的时候不区分大小写。-D,显示所有重复的行。-d,只输出重复的行。-u,只显示唯一的行。

2024-07-09 17:35:23 246

原创 linux vi命令使用

1,$ s/str1/str2/g 用字符串str2替换正文中所有出现的字符串str1。g放在命令开头,表示对正文中所有包含搜索字符串的行进行替换操作。使用 g 放在命令末尾,表示对搜索字符串的每次出现进行替换;<字符串> 输入N继续查找下一个。向下查找<字符串> <字符串> 输入n继续查找下一个。不加 g,表示只对搜索字符串的首次出现进行替换;复制游标所在的整行 yy(3yy表示复制3行)粘贴至光标后(下) p(小写)粘贴至光标亲(上) P(大写)到下一个单词的开头 w。到前一个单词的开头 b。

2024-07-09 17:34:19 215

原创 linux grep命令使用

grep -C 5 foo file 显示file文件里匹配foo字串那行以及上下5行。grep -B 5 foo file 显示foo及前5行。grep -A 5 foo file 显示foo及后5行。grep [选项] [模式] [文件…-r或-R:递归搜索目录下的所有文件。-C n:显示匹配行及其前后各n行。-v:反向匹配,输出不匹配的行。-l:只显示包含匹配项的文件名。-A n:显示匹配行及其后n行。-B n:显示匹配行及其前n行。-n:显示匹配行的行号。-c:统计匹配行的数量。

2024-07-09 17:33:45 361

原创 Linux排除jar包内类冲突问题

2、找到Integer.class所在的jar包。

2024-07-09 17:32:22 345

原创 Linux组合命令大全

最主要的是是-exec了,-exec选项后边跟着一个所要执行的命令,表示将find出来的文件或目录执行该命令。exec选项后面跟随着所要执行的命令或脚本,然后是一对儿{},一个空格和一个,最后是一个分号。-name ‘*.exe’ 根据名称来查找,要查找所有以.exe结尾的文件夹或者文件。8、保留原文件属性的前提下复制文件。-print 输出查找的文件目录名。9、删除目录下所有exe文件。10、for循环批量执行命令。7、多阶段grep租户筛选。3、awk拼接后sh执行。6、统计匹配数量后判断。

2024-07-09 17:31:47 332

原创 nohup和&启动程序详解

注:2>&1 表示不仅命令行正常的输出保存到app.log中,产生错误信息的输出也保存到app.log文件中。使用Ctrl + C发送SIGINT信号,程序免疫。使用Ctrl + C发送SIGINT信号,程序关闭。关闭session发送SIGHUP信号,程序关闭。关闭session发送SIGHUP信号,程序免疫。同时免疫SIGINT和SIGHUP信号。结果默认会输出到nohup.out。

2024-07-09 17:30:58 296

原创 sort交集并集差集使用

一、交集二、并集三、差集。

2024-07-09 17:30:27 283

原创 Linux主机系统性能分析

系统性能分析工具:vmstat、sar、iostat检测是否是CPU瓶颈free、vmstat检测是否是内存瓶颈iostat检测是否是磁盘I/O瓶颈netstat检测是否是网络带宽瓶颈查看主机磁盘:lsblk/fdisk -l 命令列出磁盘信息df 命令查看分区、大小和可用空间fdisk 命令用于管理磁盘分区,提供添加、删除、转换分区功能mkfs 命令用于在Linux系统中格式化磁盘查看磁盘做raid情况:大数据文件系统一般裸盘使用即可。

2024-07-09 17:29:27 404

原创 Linux查找特定时间内文件

ls -l --time-style=long-iso .|grep -v $(date -d “1 minute ago” +“%H:%M”) #显示一分钟以前的文件。find 对应目录 -mtime +7 -name “文件名” -exec rm -rf {};” -mtime -1 当前目录下文件名包含data,而且修改时间在24小时以内的。” -mtime -2 当前目录下文件名包含data,而且修改时间在48小时以内的。find 对应目录 -mtime +7 -exec ls {};

2024-07-09 17:28:07 256

原创 Crontab命令详解

分 时 天 月 星期 命令。设置crontab开机自动启动: chkconfig --level 35 crond on。查看crontab是否开机启动:chkconfig --list crond。crontab 命令,最小的执行时间是一分钟。crontab -l 列出当前用户定时任务。crontab -r 删除当前用户定时任务。crontab -e 编辑当前用户定时任务。

2024-07-09 17:27:33 314

原创 nmon采集使用详解

c 取出多少抽样数量,这里为1200,即监控=1200*(30/60/60)=10小时。通过以下命令,将.nmon文件转化成.csv文件,在当前目录生成对应的.csv文件。-f 按标准格式输出文件: _YYYYMMDD_HHMM.nmon。-s 每隔n秒抽样一次,这里为30。-m 切换到路径去保存日志文件。

2024-07-09 17:26:59 118

原创 Linux进程分析详解

jmap -heap [pid] 要注意的是在使用CMS GC 情况下,jmap -heap的执行有可能会导致JAVA 进程挂起。jmap -dump:live,format=b,file=/tmp/dump.dat 21711 -------->进程id。jmap -dump:format=b,file=文件名 [pid]/proc/$PID/task 目录下的目录数判断线程数量。在日志/var/log/audit中grep进程id。jmap -heap hs2进程号。查看整个JVM内存状态。

2024-07-09 17:26:06 655

原创 hdfs手动清理过期文件详细步骤

会在每次创建检查点时删除比fs.trash.interval更早创建的检查点目录,设置的值应为<=fs.trash.interval。设置1小时创建一次检查点目录,会在/user/用户下每隔1小时创建一个检查点目录,并把垃圾回收站中的文件移动到该目录下。等到1天后将删除所有检查点目录,如果该参数为0,则该值默认设置为fs.trash.interval的值,fs.trash.checkpoint.interval 创建检查点时间间隔(需要重启HDFS)设置1天后垃圾回收站中的文件会被系统永久删除。

2024-07-09 11:55:17 234

原创 HDFS非DFS存储突增问题分析

Reserved Space指的是配置项(dfs.datanode.du.reserved)所配置的内容,是HDFS自己预留的,一般为30G。当HDFS配置容量暴增,但是HDFS使用的存储并没有突增时,考虑Non DFS Used占用增大。Non DFS Used是指DFS数据存储目录所属卷的非DFS数据占用的空间!例如:Impala程序存在大量溢出内存,到磁盘的数据!分析HDFS数据目录,查看其他程序占用增大,定位问题点。DFS Used指的是HDFS使用的空间。

2024-07-08 18:31:14 398

原创 Flink on yarn运行的Session-Cluster和Per-Job-Cluster模式详解

Attached模式下,Flink Client创建完集群后,不能关闭命令行窗口,需要与集群之间维持连接,好处是能够感知集群的退出,集群退出之后有机会做一些资源清理等动作,此处的清理是Flink作业可能占用外部的资源。bin/flink run -d -m yarn-cluster #-d(表示 detached 模式) -m yarn-cluster(表示指定 YARN 集群模式) 启动per-job运行模式。在向Flink集群提交Job的时候, 如果资源被用完了,则新的Job不能正常提交。

2024-07-08 18:10:18 307

原创 hiveserver2连接数与hivemetastore连接数详解

datanucleus.connectionPool.maxPoolSize 缺省值为10,如果poolSize=100,有3个HMS实例,每个服务器有4个池,则可以容纳1200个连接。连接池中的最大连接数:datanucleus.connectionPool.maxPoolSize(默认10)100,有3个HMS实例,每个服务器有4个池,则可以容纳1200个连接。等待队列的长度:hive.server2.async.exec.wait.queue.size=1000。

2024-07-08 16:13:42 417

原创 炒股心得O(∩_∩)O哈哈~

判断多空双方力量,只用数数均线,往上看几个压力,往下看几个支撑!价格跌破20日线,20日线往下 --> 下跌趋势。20日线向上,价格在均线上方 --> 上涨趋势。价格来回穿过20日均线 --> 震荡走势。强的上涨趋势中:所有均线压力都要被突破!弱的下降趋势中:所有均线支撑都要被跌破!关键K线-弱转强:所有均线在股价之下!均线方向:当前级别的趋势方向。

2024-07-08 16:07:48 127

原创 pytorch学习记录

Pytorch是torch的python版本,是由Facebook开源的神经网络框架,专门针对 GPU 加速的深度神经网络(DNN)编程。Torch 是一个经典的对多维矩阵数据进行操作的张量(tensor)库,在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同,pytorch的计算图是动态的,可以根据计算需要实时改变计算图。张量(tensor)是多维数组,目的是把向量、矩阵推向更高的维度。有n维度就叫做n维张量。

2024-07-08 09:30:15 1008

原创 机器学习综述

有监督学习:用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法被称为有监督学习,是最常用的一种机器学习方法。无监督学习:与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重要的 特征信息,常见的算法有聚类、降维、文本处理(特征抽取)等。

2024-07-08 09:26:23 406

原创 分布式事务CAP定理

在各个服务的事务尚未完全处理完毕时,如果去访问数据库,可能会遇到各个节点数据不一致的情况。这样就是满足了AP。CP架构(刚性事务):如果要满足数据的强一致性,就必须在一个服务数据库锁定的同时,对分布式服务下的其他服务数据资源同时锁定。现实情况下,我们面对的是一个不可靠的网络、有一定概率宕机的设备,这两个因素都会导致Partition,因而分布式系统实现中 P 是一个必须项,而不是可选项。对于分布式系统工程实践,CAP理论更合适的描述是:在满足分区容错的前提下,没有算法能同时满足数据一致性和服务可用性。

2024-07-04 08:13:00 347

原创 python框架一览图

方便、易于使用、专为科学和工程设计的Python工具包.它包括统计,优化,整合,线性代数模块,傅里叶变换,信号和图像处理,常微分方程求解器等等。matplotlib——绘图,对于图像美化方面比较完善,可以自定义线条的颜色和式样,可以在一张绘图纸上绘制多张小图,也可在一张图上绘制多条线,可以很方便的对数据进行可视化分析。pandas——数据分析,基于numPy 的一种工具,为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。

2024-07-04 08:07:35 127

原创 python-yield使用

yield 是 Python 的一个关键字,用于从一个函数中返回一个生成器(generator)。生成器是一种特殊类型的迭代器,它允许你延迟计算结果,这在处理大数据或者创建复杂数据结构时特别有用,因为你不需要一次性将所有的数据都存储在内存中。一个使用 yield 的函数会被称为生成器函数。这种函数并不直接返回一个值,而是生成一系列的值。每次调用这个生成器函数,它会从上次离开的地方继续执行,并且可以产生许多结果,而不是单个值。

2024-07-04 08:06:24 597

原创 python-lambda函数使用

在Python中有两种函数,一种是def定义的函数,另一种是lambda函数,也就是大家常说的匿名函数。

2024-07-04 08:03:48 701

原创 Hadoop组件使用规范

2、单个reduce任务处理的数据量控制在2G左右。2、单分区内文件平均大小<40m, 文件数需<50。3、单分区内文件大小>100m,文件数需<1000。6、hive任务不允许使用impala建的view。1、使用MR运行大作业,必须指定reduce数。4、spark程序禁止使用提交用户权限外的数据。2、任务执行时长超过5min的,排查任务合理性。1、任务执行时长超过8min的,kill。1、不允许在/tmp下存放持久化数据。7、ods数据存储1年,过期删除。3、提交任务必须指定任务名。

2024-07-03 18:18:41 181

原创 数据湖hudi技术详解

Hudi数据模型Hudi将数据分为三个层次:文件(File)、记录(Record)和时间线(Timeline)。文件(File):文件是存储在HDFS上的数据单元,包含了一组记录。每个文件都有一个唯一的文件ID,用于标识文件。文件可以追加数据记录,也可以被删除。记录(Record):记录是文件的最小数据单元,可以是JSON、CSV等格式。每个记录都有一个唯一的键(Key),用于标识记录。记录可以插入、更新和删除。时间线(Timeline):时间线用于管理文件的版本。

2024-07-03 12:42:21 751

原创 全链路数据治理分层详解

ods(Operation Data Store 贴源层):直接接入源数据-业务库、埋点日志、消息队列等。dwd(data warehouse details 数据细节层):ods层数据去空/脏数据、离群值等,业务层和数仓层的隔离层,保持和ods层相同粒度。dwm(data warehouse middle 数据中间层):dwd层数据轻微聚合,算出统计指标,生成中间表。

2024-07-03 12:03:46 515

Hadoop权威指南

hadoop权威指南,hadoop权威指南,hadoop权威指南,hadoop权威指南hadoop权威指南,hadoop权威指南,hadoop权威指南,hadoop权威指南,hadoop权威指南,hadoop权威指南

2017-09-16

java连接数据库万能代码

很好用的额、、、、经过多次实践证明,连接没有问题啊

2012-10-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除