自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迎难而上

热爱技术的IT人

  • 博客(1062)
  • 收藏
  • 关注

原创 Hive_Spark_left()函数

参数不会大于字符串的实际长度,否则结果可能会根据不同数据库系统的实现而有所不同。一些数据库系统可能返回整个字符串,而另一些则可能返回空字符串或NULL。函数是一个字符串函数,用于从一个字符串的左侧开始提取指定数量的字符。函数在不同的数据库系统中可能会有不同的实现,因此在使用特定数据库时,应当参考相应的文档。比如,在Oracle数据库中,你会使用。是一个正数,表示从字符串左侧开始要提取的字符数量。是你想要从中提取子字符串的字符串表达式。第一个参数是要从中提取字符的字符串。第二个参数指定要提取的字符数。

2023-11-29 14:21:39 508

原创 Hive_last_value()

函数是一个窗口函数,用于返回窗口内的最后一个值。在同一分区内,窗口函数将独立计算每个分区。表示基于指定的列或表达式对行进行排序,这对于定义“最后”是基于什么顺序很重要。,它可能不会返回期望的结果。为了确保能够得到分区内所有行的最后一个值,可以使用。两列,以下SQL语句将返回每个分区(在本例中为每个日期)的最后一个。子句一起使用,后者定义了窗口的分区、排序和范围。默认的窗口范围是到当前行,因此如果没有特定的。是很重要的,这样才能得到你想要的结果。(可选)定义了窗口的范围,默认是。

2023-11-29 14:13:54 647

原创 Spark_日期参数解析参数-spark.sql.legacy.timeParserPolicy

在Spark 3.0之前的版本中,日期和时间解析使用java.text.SimpleDateFormat,它在解析某些日期和时间格式时可能较为宽松。例如,它可能允许日期字符串中的月份部分超过12,或日期部分超过31,并尝试自动调整。如果你的代码中有日期和时间解析,并且你升级到了Spark 3.0或更高版本,那么你可能需要关注这个配置选项,以确保代码的兼容性和期望行为。如果你的日期和时间字符串格式严格并始终遵循ISO标准,或者你希望采用更严格的解析策略,那么你应该使用默认的。在Apache Spark中,

2023-11-29 13:50:44 616

原创 Spark_spark hints 详细介绍

spark 中hints 的优先级高于,代码中的config, 高于spark_submit 中的commit。

2023-11-29 11:05:21 281

原创 重要函数记录

variant。

2023-11-28 19:54:57 41

转载 Linux_Linux修改文件编码

file命令用来识别文件类型,也可用来辨别一些文件的编码格式。它是通过查看文件的头部信息来获取文件类型,而不是像Windows通过扩展名来确定文件类型的。命令之前,确保你的系统已经安装了相应的编码库,以便支持所需的源编码和目标编码。在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式。的文件从UTF-8编码转换为GB2312编码,并将结果保存在名为。# 语法格式:file [参数] [文件]命令用于将文件从一种编码转换为另一种编码。在Linux中,你可以使用。命令来修改文件的编码。

2023-11-28 19:02:24 809

转载 Mac_Chrome 关闭双指手势 前进&后退

mac版chrome自带双指手势前进后退功能,经常误操作,一直想把它关闭了,但chrome的设置里没有,后来发现可以这样操作。上述命令需要在终端进行输入。

2023-11-28 17:35:11 174

原创 Linux_Linux终端常用快捷键

这个快捷键的原理是发送一个中断信号(SIGINT)给前台进程组,通常是用来停止当前正在执行的命令。原理与Ctrl + K类似,发送一个控制序列到终端,告诉终端删除当前光标位置到行首的字符。Linux命令行核心常用快捷键是一些在终端中使用的快捷键组合,用于提高命令行操作的效率。这个快捷键的原理是发送一个控制序列到终端,告诉终端删除当前光标位置到行尾的字符。原理与Ctrl + A类似,发送一个控制序列到终端,将光标移动到行尾。这个快捷键的原理是发送一个控制序列到终端,告诉终端将光标移动到行首。

2023-11-28 17:29:37 186

原创 Spark_spark shell退出方式

本文介绍了四种退出Spark Shell的方式:使用退出命令、使用Ctrl+D组合键、使用系统命令和结束Shell进程。这些方式都可以有效地退出Spark Shell,并释放资源。在使用Spark Shell时,我们可以根据实际需求选择合适的退出方式。遵循良好的退出习惯,可以提高工作效率,同时避免资源浪费。

2023-11-28 17:18:45 614

原创 Spark_Spark高阶特性

spark本身对parquet支持比较好,因为parquet。Parquet 支持批量读取。filter导致断链。

2023-11-28 16:35:40 202

原创 Doris_Doris建表

这里用到了动态分区 :Doris动态分区参考这篇文章 :动态分区 - Apache Doris Doris动态分区参考这篇文章 :动态分区 - Apache Doris

2023-11-28 16:15:21 91

原创 Doris_Doris导入常见问题

导入palo表中的csv本身无schema信息,csv与palo表字段顺序必须一致,否则会错乱。解决方法 :palo导入前替换制表符等特殊字符。可能原因:字符串等存在特殊字符,与分隔符重复。检测方法 :利用sublime搜索制表符。可能原因:varchar长度设置过短。

2023-11-28 15:04:28 403

原创 Doris_Doris表修改

Palo表暂不支持字段重命名。社区版本1.2.0+doris 支持字段重命名,不过需要设置属性 "light_schema_change" = "true"schema change 是异步的,任务提交成功则返回,之后可使用。不能在 rollup index 中增加 base index 中已经存在的列(如有需要,可以重新创建一个 rollup index)非聚合模型(如 DUPLICATE KEY)如果增加key列,需要指定KEY关键字。Doris表在修改注释的时候,可以同时修改多个字段的注释。

2023-11-28 14:53:25 350

原创 Spark_spark参数配置优先级

spark-submit 提交的优先级 < scala/java代码中的配置参数 < spark SQL hint。优先级低-》优先级高。

2023-11-28 14:32:07 514

原创 Mac_mac常用快捷键

锁屏截图与录屏」「浏览器快捷键」

2023-11-28 12:58:26 25

原创 Mac_mac idea 常用快捷键

command + option + l 代码格式化。command+option+: 回到下一步代码。command + o 查找。

2023-11-28 08:35:33 136

原创 Mac_mac sublime常用快捷键

command+option+f 查找替换。command+f 查找。

2023-11-28 08:33:56 52

原创 Spark_Spark常见问题与解决方案

Spark常见报错与解决方案【三】_7337端口_大数据学习僧的博客-CSDN博客

2023-11-28 08:20:57 40

原创 Git_git相关指令 高阶

git config pull.rebase false是做什么的_fury_123的博客-CSDN博客

2023-11-28 08:20:39 349

原创 Spark spark参数调优最佳实践

所有网络交互的默认超时时间。如果未配置,则将使用此配置代替spark.storage.blockManagerSlaveTimeoutMs,spark.shuffle.io.connectionTimeout,spark.rpc.askTimeout或spark.rpc.lookupTimeout。spark.network.timeout 根据情况改成300(5min)或更高。若如出现各种timeout,executor lost ,task lost。

2023-11-28 08:19:51 76

原创 Spark SQL,DF,RDD cache常用方式

对于dataframe。

2023-11-28 07:57:47 241

原创 Spark_Spark内存模型管理

工作中经常用到Spark内存调参,之前还没对这块记录,这次记录一下。

2023-09-15 13:51:40 257

原创 SQL_牛客网_SQL264_求每个登陆日期的次日留存率

2020-10-12登录了3个(user_id为2,3,1)新用户,2020-10-13,只有2个(id为2,1)登录,故2020-10-12新用户次日留存率为2/3=0.667;2020-10-14登录了1个(user_id为4)新用户,2020-10-15,user_id为4的用户登录,故2020-10-14新用户次日留存率为1/1=1.000;第1行表示user_id为2的用户在2020-10-12使用了客户端id为1的设备登录了牛客网,因为是第1次登录,所以是新用户。牛客每个人最近的登录日期(五)

2023-09-12 12:19:43 971

转载 HBase_HBase数据读取流程

读流程从头到尾可以分为如下4个步骤:1. Client-Server读取交互逻辑,2. Server端Scan框架体系,3. 过滤淘汰不符合查询条件的HFile,4. 从HFile中读取待查找Key。其中Client-Server交互逻辑主要介绍HBase客户端在整个scan请求的过程中是如何与服务器端进行交互的,理解这点对于使用HBase Scan API进行数据读取非常重要。了解Server端Scan框架体系,从宏观上介绍HBase RegionServer如何逐步处理一次scan请求。

2023-09-07 16:17:17 213

转载 HBase_HBase写入流程详解

flush阶段生成HFile和Compaction阶段生成HFile的流程完全相同,不同的是,flush读取的是MemStore中的KeyValue写成HFile,而Compaction读取的是多个HFile中的KeyValue写成一个大的HFile,KeyValue来源不同。

2023-09-07 02:23:42 91

转载 HBase高级特性、rowkey设计以及热点问题处理

参考文章 :在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[],主要用来处理结构化和半结构化数据,底层数据存储基于hdfs。同时,HBase和传统数据库一样提供了事务的概念,但是HBase的事务是行级事务,可以保证行级数据的原子性、一致性、隔离性以及持久性。布隆过滤器(Bloom Filter)是空间利用效率很高的数据结构,利用位数组表示一个集合,判断一个元素是否属于该集合。

2023-09-06 19:54:48 83

转载 数据湖_Hudi概述

数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

2023-09-06 12:42:52 73

转载 SparkSQL_Spark SQL运行流程及性能优化:RBO和CBO

基于代价的优化器(Cost Based Optimizer,CBO)已经包含了Join重排的优化规则,join重排通过影响中间结果、具体join算法,从而影响join的执行效率Join的顺序影响中间结果的数据量,决定了Join的执行效率假如A,B,C的数据量各自是1000条记录,如果A ⋈ C的数据量是1条记录,A ⋈ B是100条记录,显然A ⋈ B ⋈ C的效率低于A ⋈ C ⋈ B,因为前者的中间结果是100条记录,而后者是1条。

2023-09-06 11:46:07 219

转载 Spark_SparkSQL_broadcast join不生效问题

大数据计算通常会存在大表join小表的情况,如果相对较小的表允许广播到各个executor的话,可以使用广播方式mapjoin,这样还可以避免数据倾斜。看到auto以为spark执行join时候会根据表的大小自动切换广播join;

2023-09-06 10:24:39 164

原创 机器学习_特征工程_特征数据的评价标准

好特征可以从几个角度衡量:覆盖度,区分度,相关性,稳定性主要通过计算不同时间段内同一类用户特征的分布的差异来评估方差膨胀系数 Variance inflation factor (VIF)如果一个特征是其他一组特征的线性组合,则不会在模型中提供额外的信息,可以去掉评估共线性程度:2. 计算VF计算:VIF越大说明拟合越好,该特征和其他特征组合共线性越强,就越没有信息量,可以剔除使用排除法的方式训练模型,把模型性能下降最少的那个特征去掉,反复上述训练直到达到指定的特征个数。

2023-09-05 17:20:44 1066

原创 Hive_Hive统计指令analyze table和 describe table

analyze table和 describe table 一般是组合使用的,其中analyze table指令可以用于数据表的统计,并且是通过额外的任务对数据表的大小或者分区等进行统计。而describe table 则是将统计好的数据展示出来。官网对这块儿的介绍统计数据(如表或分区的行数和特定感兴趣的列的直方图)在许多方面都很重要。统计的一个关键用例是查询优化。统计数据作为优化器的成本函数的输入,以便它可以比较不同的计划并从中进行选择。统计数据有时可以满足用户查询的目的。

2023-09-05 16:28:23 1020

原创 Linux_VMware_虚拟机磁盘扩容

由于项目逐步的完善,需要搭建的中间件,软件越来越多,导致以前虚拟机配置20G的内存不够用了,又不想重新创建新的虚拟机,退而求更精,选择扩容。

2023-09-05 12:07:19 288

转载 数据仓库_实时数仓技术选型概览

本文介绍了市面上常见实时数仓方案,并对不同方案的优缺点进行了介绍。在使用过程中我们需要根据自己的业务场景选择合适的架构。另外想说明的是实时数仓方案并不是“搬过来”,而是根据业务“演化来”的,具体设计的时候需要根据自身业务情况,找到最适合自己当下的实时数仓架构。延申思考我们在实时数仓的构建过程中比较大的争议是采用标准分层体系+流计算+数据湖的方案,还是试用基于全场景MPP数据库实现。

2023-09-01 14:38:18 236

转载 Spark_Spark常见问题自查

转载自 :小伙伴在写Spark任务的过程中感觉非常巨痛苦,总是有奇奇怪怪的问题,写好的程序在开发环境跑得好好的,一上到生产直接被干懵逼了。今天呢,我就跟大伙好好聊聊 Spark 在启动或者运行时的报错或者太慢,并分析其原因及解决方案。自己亲手挖的坑,抹着泪也要趟过去。现在我就跟你们细细说说我过去一年实际经验亲脚趟的坑。

2023-08-31 23:41:27 110

原创 Spark_Spark比mapreduce快的原因

1.任务模型的优化(DAG图对比多阶段的MR)2.Spark支持在内存中缓存结果(RDD分布式弹性数据集, rdd.cache())比如一个复杂逻辑中 ,一个map-reduce产生的结果A,如果在后续的map-reduce过程中需要反复用到,spark可以把A缓存到内存中,这样后续的map-reduce过程就只需要从内存中读取A即可,也会加快速度3.资源模型不同。

2023-08-31 14:06:45 863

原创 数据仓库_维度表的两大分类

最近看一篇文章对维度表进行了分类,记录一下。维度表主要分为两类高基数维度表和低基数维度表。

2023-08-29 09:30:48 1163

转载 数据仓库_数仓常见的数据模型

DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性)三部分组成,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。以上几种数据模型,互联网行业常用维度模型,能够快速满足业务需求,而在偏传统的行业,如电信、金融等,则更青睐传统数仓的范式建模。星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。

2023-08-29 08:12:00 101

转载 数仓设计_数仓中的三种事实表

事实表有三种类型 :

2023-08-28 13:44:22 120

转载 数据仓库_如何评价一个数据模型的好坏?

转载自 : 如何评价数据模型的好坏?_木东居士的博客-CSDN博客最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。如果论这四种方法,在设计思路上的好坏,那么各有千秋。但如果问,那种模型最为成熟,那么恐怕范式和维度就胜出了,而互联网行业几乎只能选择维度建模,因为它的实践经验是最多的。这就有点像软件或者框架的比较,Hadoop就一定好吗?Java就一定优于Python吗?并不是。但Hadoop一定最成熟,

2023-08-27 12:26:24 130

转载 Spark_Spark3.0特性之动态分区裁剪

参考文章 :Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪(dynamic partition pruning)就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。

2023-08-24 21:55:51 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除