高达一号-CSDN博客

原创大数据_SQL_5min访问达到100次的用户

某公司网站每日访问量达到10亿级别的访问量，每次访问记录一条数据，数据包含如下字段：用户ID，访问时间（毫秒级），访问页面。要求使用hive求出所有在5分钟内访问次数达到100次的用户（求出用户ID即可）假设存在如下表table_a用户id (uid), 访问事件 (visit_time), 访问页面 (page)

2024-08-08 21:08:57 378

我们可以考虑按照「行优先」的顺序依次枚举每一个空白格中填的数字，通过递归 + 回溯的方法枚举所有可能的填法。当递归到最后一个空白格后，如果仍然没有冲突，说明我们找到了答案；在递归的过程中，如果当前的空白格不能填下任何一个数字，那么就进行回溯。由于每个数字在同一行、同一列、同一个九宫格中只会出现一次，因此我们可以使用 line[i]，column[j]，block[x][y] 分别表示第 i 行，第 j 列，第 (x,y) 个九宫格中填写数字的情况。

2024-08-08 20:50:36 922

原创数据仓库-指标分类与介绍

通过上述两个具体的案例可以看出，绝大多数的统计需求，都可以使用原子指标、派生指标以及衍生指标这套标准去定义。这种情况下，我们就可以考虑将这些公共的派生指标保存下来，这样做的主要目的就是减少重复计算，提高数据的复用性。所有指标的定义，都必须遵循同一套标准，这样能有效的避免指标定义存在歧义，指标定义重复等问题。衍生指标是在一个或多个派生指标的基础上，通过各种逻辑运算复合而成的。，是业务定义中不可再拆解的指标，原子指标的核心功能就是对指标的。派生指标基于原子指标，其与原子指标的关系如下图所示。

2024-07-04 20:58:22 417

原创 Hive_Spark_left()函数

参数不会大于字符串的实际长度，否则结果可能会根据不同数据库系统的实现而有所不同。一些数据库系统可能返回整个字符串，而另一些则可能返回空字符串或NULL。函数是一个字符串函数，用于从一个字符串的左侧开始提取指定数量的字符。函数在不同的数据库系统中可能会有不同的实现，因此在使用特定数据库时，应当参考相应的文档。比如，在Oracle数据库中，你会使用。是一个正数，表示从字符串左侧开始要提取的字符数量。是你想要从中提取子字符串的字符串表达式。第一个参数是要从中提取字符的字符串。第二个参数指定要提取的字符数。

2023-11-29 14:21:39 1212

原创 Hive_last_value()

函数是一个窗口函数，用于返回窗口内的最后一个值。在同一分区内，窗口函数将独立计算每个分区。表示基于指定的列或表达式对行进行排序，这对于定义“最后”是基于什么顺序很重要。，它可能不会返回期望的结果。为了确保能够得到分区内所有行的最后一个值，可以使用。两列，以下SQL语句将返回每个分区（在本例中为每个日期）的最后一个。子句一起使用，后者定义了窗口的分区、排序和范围。默认的窗口范围是到当前行，因此如果没有特定的。是很重要的，这样才能得到你想要的结果。（可选）定义了窗口的范围，默认是。

2023-11-29 14:13:54 1591

原创 Spark_日期参数解析参数-spark.sql.legacy.timeParserPolicy

在Spark 3.0之前的版本中，日期和时间解析使用java.text.SimpleDateFormat，它在解析某些日期和时间格式时可能较为宽松。例如，它可能允许日期字符串中的月份部分超过12，或日期部分超过31，并尝试自动调整。如果你的代码中有日期和时间解析，并且你升级到了Spark 3.0或更高版本，那么你可能需要关注这个配置选项，以确保代码的兼容性和期望行为。如果你的日期和时间字符串格式严格并始终遵循ISO标准，或者你希望采用更严格的解析策略，那么你应该使用默认的。在Apache Spark中，

2023-11-29 13:50:44 1792

原创 Spark_spark hints 详细介绍

spark 中hints 的优先级高于，代码中的config, 高于spark_submit 中的commit。

2023-11-29 11:05:21 458

原创重要函数记录

variant。

2023-11-28 19:54:57 99

转载 Linux_Linux修改文件编码

file命令用来识别文件类型，也可用来辨别一些文件的编码格式。它是通过查看文件的头部信息来获取文件类型，而不是像Windows通过扩展名来确定文件类型的。命令之前，确保你的系统已经安装了相应的编码库，以便支持所需的源编码和目标编码。在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式。的文件从UTF-8编码转换为GB2312编码，并将结果保存在名为。# 语法格式：file [参数] [文件]命令用于将文件从一种编码转换为另一种编码。在Linux中，你可以使用。命令来修改文件的编码。

2023-11-28 19:02:24 6378

转载 Mac_Chrome 关闭双指手势前进&后退

mac版chrome自带双指手势前进后退功能，经常误操作，一直想把它关闭了，但chrome的设置里没有，后来发现可以这样操作。上述命令需要在终端进行输入。

2023-11-28 17:35:11 664

原创 Linux_Linux终端常用快捷键

这个快捷键的原理是发送一个中断信号（SIGINT）给前台进程组，通常是用来停止当前正在执行的命令。原理与Ctrl + K类似，发送一个控制序列到终端，告诉终端删除当前光标位置到行首的字符。Linux命令行核心常用快捷键是一些在终端中使用的快捷键组合，用于提高命令行操作的效率。这个快捷键的原理是发送一个控制序列到终端，告诉终端删除当前光标位置到行尾的字符。原理与Ctrl + A类似，发送一个控制序列到终端，将光标移动到行尾。这个快捷键的原理是发送一个控制序列到终端，告诉终端将光标移动到行首。

2023-11-28 17:29:37 299

原创 Spark_spark shell退出方式

本文介绍了四种退出Spark Shell的方式：使用退出命令、使用Ctrl+D组合键、使用系统命令和结束Shell进程。这些方式都可以有效地退出Spark Shell，并释放资源。在使用Spark Shell时，我们可以根据实际需求选择合适的退出方式。遵循良好的退出习惯，可以提高工作效率，同时避免资源浪费。

2023-11-28 17:18:45 2800

原创 Spark_Spark高阶特性

spark本身对parquet支持比较好，因为parquet。Parquet 支持批量读取。filter导致断链。

2023-11-28 16:35:40 259

原创 Doris_Doris建表

这里用到了动态分区：Doris动态分区参考这篇文章：动态分区 - Apache Doris Doris动态分区参考这篇文章：动态分区 - Apache Doris

2023-11-28 16:15:21 335

原创 Doris_Doris导入常见问题

导入palo表中的csv本身无schema信息，csv与palo表字段顺序必须一致，否则会错乱。解决方法：palo导入前替换制表符等特殊字符。可能原因：字符串等存在特殊字符，与分隔符重复。检测方法：利用sublime搜索制表符。可能原因：varchar长度设置过短。

2023-11-28 15:04:28 1749

原创 Doris_Doris表修改

Palo表暂不支持字段重命名。社区版本1.2.0+doris 支持字段重命名，不过需要设置属性 "light_schema_change" = "true"schema change 是异步的，任务提交成功则返回，之后可使用。不能在 rollup index 中增加 base index 中已经存在的列（如有需要，可以重新创建一个 rollup index）非聚合模型（如 DUPLICATE KEY）如果增加key列，需要指定KEY关键字。Doris表在修改注释的时候，可以同时修改多个字段的注释。

2023-11-28 14:53:25 3847

原创 Spark_spark参数配置优先级

spark-submit 提交的优先级 < scala/java代码中的配置参数 < spark SQL hint。优先级低-》优先级高。

2023-11-28 14:32:07 993

原创 Mac_mac常用快捷键

锁屏截图与录屏」「浏览器快捷键」

2023-11-28 12:58:26 112

原创 Mac_mac idea 常用快捷键

command + option + l 代码格式化。command+option+: 回到下一步代码。command + o 查找。

2023-11-28 08:35:33 1625

原创 Mac_mac sublime常用快捷键

command+option+f 查找替换。command+f 查找。

2023-11-28 08:33:56 619

原创 Spark_Spark常见问题与解决方案

Spark常见报错与解决方案【三】_7337端口_大数据学习僧的博客-CSDN博客

2023-11-28 08:20:57 131

原创 Git_git相关指令高阶

git config pull.rebase false是做什么的_fury_123的博客-CSDN博客

2023-11-28 08:20:39 440

原创 Spark spark参数调优最佳实践

所有网络交互的默认超时时间。如果未配置，则将使用此配置代替spark.storage.blockManagerSlaveTimeoutMs，spark.shuffle.io.connectionTimeout，spark.rpc.askTimeout或spark.rpc.lookupTimeout。spark.network.timeout 根据情况改成300(5min)或更高。若如出现各种timeout，executor lost ,task lost。

2023-11-28 08:19:51 299

原创 Spark SQL,DF,RDD cache常用方式

对于dataframe。

2023-11-28 07:57:47 343

原创 Spark_Spark内存模型管理

工作中经常用到Spark内存调参，之前还没对这块记录，这次记录一下。

2023-09-15 13:51:40 341

原创 SQL_牛客网_SQL264_求每个登陆日期的次日留存率

2020-10-12登录了3个(user_id为2，3，1)新用户，2020-10-13，只有2个(id为2,1)登录，故2020-10-12新用户次日留存率为2/3=0.667;2020-10-14登录了1个(user_id为4)新用户，2020-10-15，user_id为4的用户登录，故2020-10-14新用户次日留存率为1/1=1.000;第1行表示user_id为2的用户在2020-10-12使用了客户端id为1的设备登录了牛客网，因为是第1次登录，所以是新用户。牛客每个人最近的登录日期(五)

2023-09-12 12:19:43 1038

空空如也

空空如也