自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

渐渐的忘记,赶不上明天(读研ing,2024年毕业)

流浪猫摇晃秋千,夕阳照了一遍它眯着眼。

  • 博客(377)
  • 收藏
  • 关注

原创 awk命令

awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性是awk最大的优势。

2024-09-13 21:39:38 901

原创 【Spark异常记录】- Cannot safely cast ‘click_cnt‘: string to int

这是因为从 Spark 3.0.0 开始,Spark SQL 增加了一个安全策略,不对非同类型的数据进行强制转换,然后就会出现这个错误。策略:不允许 Spark 进行某些不合理的类型转换,如:string 转换成 timestamp。策略:允许 Spark 进行类型强制转换,只要它是有效的 Cast 操作。策略:不允许 Spark 进行任何可能有损精度的转换。

2024-08-28 16:30:51 249

原创 【Linux---08】Shell脚本

有一个非常有用的作用—将多行命令变成一行,这对于平台化的shell脚本执行非常有帮助。通过平台执行shell脚本时,往往限制只能执行一行命令。如果要想向shell脚本里传入参数,可以在运行shell脚本时携带参数。shell脚本是linux系统中的一个可执行文件,它可以用来批量执行linux命令,比手动输入大量命令要高。注意:元素间使用空格,而不是逗号分隔;并且后续可以继续添加元素,并不是静态的。方式二:授予文件可执行权限,这样可以直接输入文件名运行文件。左边是变量名,右边是变量值。${数组名[下标]}

2024-08-05 17:54:24 630

原创 【IDEA】IDEA打开文件时自动跟随展示文件中项目中的位置

2024-07-29 16:33:27 489

原创 【IDEA】运行代码提交参数设置

2024-07-24 10:01:15 134

原创 【Hadoop】hadoop文件路径正则写法

非字符范围 匹配一个不在{a,b}范围内 的字符(包括ab),a在字 典顺序上要小于或等于b。字符范围 匹配一个在{a,b}范围内的 字符(包括ab),a在字典 顺序上要小于或等于b。因此,可以一次读取多个文件。比如:一次性读取2024.1.1日至2024.6.30日的数据。非字符类别 匹配不是{a,b}中的一个字符。字符类别 匹配{a,b}中的一个字符。或选择 匹配包含a或b中的一个的语句。星号 匹配0或多个字符。

2024-07-22 20:44:14 234

原创 【Scala---04】函数式编程 『 函数 vs 方法 | 函数至简原则 | 函数式编程』

object 类名 {def 方法名([变量:变量类型,变量:变量类型]):返回值类型 = {方法体比如:方法不能作为值传递x + yval result = add // 会报错方法不能作为参数传递// 1. 定义calculate方法def calculate(x: Int, y: Int, func: (Int, Int) => Int): Int = { // x与y进行func操作,这个func函数需要指名 形参类型和返回值func(x, y)// 2. 定义add方法。

2024-05-06 15:02:33 1004 2

原创 【IDEA】文件夹标记修改

修改文件夹:

2024-04-28 21:39:16 313

原创 【Scala---01】Scala简介与环境部署『 Scala简介 | 函数式编程简介 | Scala VS Java | 安装与部署』

Scala是由于Spark的流行而兴起的。Scala是高级语言,Scala底层使用的是Java,可以看做是对Java的进一步封装,更加简洁,代码量是Java的一半。因此,Scala是运行在JVM上的,可以跨平台,可以直接在Scala中编写Java代码。Scala是面向函数式编程,无论做什么要明确是什么函数。具体而言,就是函数可以作为参数传递给另一个函数,也可以把函数作为返回值返回出来。函数式编程没有副作用,即变量一经赋值,就不变。引用透明。

2024-04-28 21:15:41 1047 1

原创 【IDEA】IDEA自带Maven/JDK,不需要下载

视频连接:

2024-04-28 21:03:18 752 1

原创 【Windows】关闭自动更新

找到:任务计划程序 -> 任务计划程序库 -> Microsoft -> Windows -> WindowsUpdate。右键单击Scheduled Start任务,然后点击“禁用”即可。右键单击“此电脑”,点击“管理”。

2024-04-02 14:28:36 287

原创 【Hive】with 语法 vs cache table 语法

3、当数据需要构造all维度时,不用在with / cache语法内使用 lateral view 语法将数据裂开,这样数据量太大了,然后可能在后续使用过程中出现维度问题。应该在使用with / cache table中的数据时再裂开。1、最常见的,多个重复sql时,可使用with / cache语法。cache是会将数据缓存在内存中,按需求考虑。2、cache一般用来缓存结果数据,小量数据;如果要将数据缓存,需要使用cache table语法。需要注意,with语法只相当于一个视图,

2024-03-22 13:03:51 793

原创 Windows定时休息提醒

打开计划任务管理程序。可以通过 “开始->windows管理工具->任务计划程序” 或者 “控制面板->系统和安全->管理工具->计划任务” 找到。保存完毕后,找到刚才保存的脚本,试着双击执行一下。如果能弹出提醒框,说明脚本没有问题。在左边可以看到“计划任务程序库”,可以右击新建一个自己的文件夹,方便管理。编码一定要选择“ANSI”,不然一会儿执行会报错。在电脑任意地方创建一个文件,我说在。右击自己的文件夹,点击“创建任务”最终确定后可查看是不是想要的。链接上前面编写的提醒界面。

2024-03-20 11:49:27 737

原创 Window常见命令与操作

WinctrldWinctrl左右方向键WinctrlF4Alttab。

2024-03-14 15:57:57 461

原创 【Hive】HQL Map 『CRUD | 相关函数』

1. Map 增删改查1.1 声明 Map 数据类型1.2 增1.3 删1.4 改1.5 查2. Map 相关函数2.1 单个Map3. Map 与 String3.1 Map 转 string3.2 string 转 Map

2023-08-22 16:09:49 1112

原创 【Hive】group by 分组聚合后使用窗口函数

1. group by 分组聚合后使用排序窗口函数1.1 两种思路 与 简单例子1.2 新思路的解释2. group by 分组聚合后使用聚合窗口函数3. group by 分组聚合后使用分析窗口函数

2023-07-20 13:15:08 2055 1

原创 【Hive】HQL Array 『CRUD | 相关函数』

例如,array_intersect(array(1,2,3), array(2,3,4))将返回数组(2,3)。例如,array_except(array(1,2,3), array(2,4))将返回数组(1,3)。例如,6. array_join(array(1,2,3), ‘,’)将返回字符串"1,2,3"。例如,array_remove(array(1,2,3), 2)将返回数组(1,3)。例如,array_position(array(1,2,3), 2)将返回2。:返回数组中的最大值。

2023-06-12 19:21:15 2723 4

原创 【Hive】distinct对行与列的去重

在 函数 里面,则是对列去重。

2023-06-02 15:02:54 144

原创 【Hive】SQL中函数执行顺序 『 一般函数 | 窗口函数』

类似于函数的调用,外层函数会被先调用,但是后执行。也就是说,越内层的函数,越先执行。所以,当函数内有对列进行过滤时,会先过滤,再执行函数。函数的功能:对数据进行某操作。这先得有数据才能进行操作。

2023-06-02 14:39:30 1045

原创 【Scala】下划线的使用总结

1. 用于导包下的所有内容2. 访问元组3. 为类中的var属性赋默认值4. 匿名函数作为实参传递时用下划线简化5. 用于模式匹配等价于else

2023-06-01 19:02:56 152

原创 【Scala】=>的含义

是函数的标志,看到这个符号,就要想到函数。

2023-06-01 17:17:24 342

原创 【Scala---03】Scala 类与对象 『 类 | 属性 | 访问权限 | 方法 | 继承 | 伴生对象&伴生类 | 查看类/对象的所有方法』

1. 定义类2. 属性3. 访问权限4. 方法4.1 方法 vs 函数4.2 方法重写4.3 方法重载4.4 构造方法(1) 构造器定义(2) 构造器的参数列表(3) 构造器私有化5. 继承6. 伴生对象 & 伴生类6.1 伴生对象的由来6.2 伴生对象 & 伴生类7. 后续

2023-05-19 17:34:31 776 1

原创 【Scala---02】Scala 基础 『 变量和数据类型 | 控制语句 | 简写』

1. 变量和数据类型1.1 变量和常量1.2 字符串1.3 数据类型1.4 伴生对象与伴生类1.5 代码块1.6 Unit、null、Nothing1.7 强制转换1.8 == 与 equals2. 控制语句2.1 分支语句2.2 循环语句(1)for循环(2)while/do-while循环(3) 循环中断3. 函数式编程3.1 方法 vs 函数3.2 方法(1) 方法的定义(2) 方法声明(3) 方法参数(4) 方法至简原则3.3 函数(1) 函数的声明(

2023-05-19 10:29:25 769

原创 Git 『流程 | 基本命令 | 分支 | 推送与拉取』

1. Git简介2. 下载并安装Git3. 跟踪4. Git流程5. 基本指令5.1 查看仓库的状态5.2 查看所有版本5.3 查看不同版本之间有哪些不同5.4 版本回退6. 分支6.1 分支相关命令6.2 开发中分支使用原则7. 远程仓库 本地仓库(1) 设置密钥(2) 远程仓库 --> 本地仓库场景一:拉取整个项目场景二:只将远程仓库更新的分支抓取到本地(3) 本地仓库--->远程仓库

2023-04-04 11:36:15 1824

原创 【Hive】space、split、posexplode函数:生成连续数、连续日期等等

1. space函数与split函数结合,得到空字符串数组;2. 如何产生1-10的连续的数字?3. 如何产生开始日期到结束日期的连续的日期?

2023-03-23 21:30:18 1777

原创 【Java】 泛型擦除

1. 泛型擦除的介绍1.1 泛型擦除的原因1.2 泛型擦除规则1.3 泛型擦除规则的验证2. 通过反射获取被擦除的泛型信息3. 使用匿名内部类解决泛型擦除导致的问题4. 泛型擦除在Flink中的坑4.1 算子实参有时用Lambda表达式代替匿名内部类会报错4.2 new OutputTag(){}

2023-01-30 00:59:24 8415 4

原创 【Flink】Sink 下沉算子 『print() | addSource() 』

1. Flink 直接连接的数据源* 将数据输出到控制台2. Flink使用连接器连接的数据源2.1 将数据输出到Kafka (用于无界流数据的实际场景)2.2 将数据输出到Redis (用于无界流数据的实际场景)2.3 将数据输出到 Elasticsearch (用到了再写)2.4 将数据输出到 MySQL(JDBC) (用到了再写)2.5 将数据输出到 文件系统 (用到了再写)2.6 自定义 Sink 输出 (用到了再写)

2023-01-12 08:54:43 385

原创 【Flink】Transformation 转换算子 『流分区 | 基本转换算子 | 聚合算子 | 合流算子 | 富函数类 | 自定义转换算子』

1. 流分区 (非算子)1.1 keyBy() 分区1.2 shuffle() 分区1.3 rebalance() 与 rescale() 分区1.4 broadcast() 分区1.5 global() 分区1.6 自定义分区2. 基本转换算子2.1 map (一对一)2.2 filter (一对一)2.3 flatMap (一对多)3. 聚合算子3.1 sum() 算子3.2 min() 算子 与 minBy() 算子3.3 max() 算子 与 maxBy() 算子3.4

2023-01-11 19:15:18 276

原创 【Flink】Source 源算子 『fromCollection() | readTextFile() | socketTextStream | addSource() | Flink流支持的数据』

1. Flink 直接连接的数据源1.1 从 集合 中读取数据(用于有界流数据的测试场景)1.2. 从 文件 读取数据(用于有界流数据的实际场景)1.3 从 Socket 读取数据(用于无界流数据的测试场景)2. Flink使用连接器连接的数据源4.1 从 Kafka 读取数据(用于无界流数据的实际场景)4.2 自定义连接器3. Flink流支持的数据类型

2023-01-07 10:01:54 353

原创 【Flink---04】Flink运行时架构 『 系统架构 | 作业提交流程 | 数据流图 vs 作业图 vs 执行图 vs 物理图 | 并行度 | 任务槽| 算子任务 | 算子子任务』

1. 系统架构1.1 概述1.2 JobManager1.3 TaskManager2. 作业提交流程2.1 抽象流程2.2 yarn集群下流程(动态分配TaskManager⭐)2.2.1 会话模式2.2.2 单作业模式2.2.3 应用模式2.3 Standalone集群下流程(预先固定TaskManager个数⭐)3. 一些重要概念3.1 算子3.2 并行度(Parallelism)(1) 什么是并行度?(2) 怎么设置算子的并行度?(3) 关于并行度的优化:合并算子链

2023-01-05 18:17:47 745

原创 【Flink---03】Flink生产环境:搭建集群、设置系统结构、设置系统的资源框架

第一步:搭建集群1.1 单点启动(用于测试)1.2 集群启动(用于实际环境)第二步:设置系统结构第三步:设置系统的资源框架

2023-01-03 11:10:49 334

原创 【JavaSE---16】函数式接口 与 Lambda表达式

1. 函数式接口1.1 定义1.2 Java中四大最基本的函数式接口2. Lambda表达式2.1 语法2.2 Lambda表达式 vs 函数式接口的匿名内部类2.3 常用场景2.4 Lambda表达式做了什么?2.5 在Flink中关于lambda表达式的一个注意点

2023-01-03 10:49:35 73

原创 【Flink---02】Flink开发环境:IDEA

第一步:创建项目第二步:编辑pom.xml文件第三步:配置日志第四步:编写代码(1) 数据准备(2) 方式一:批处理(3) 方式二:流处理* 以有界流的方式* 以无界流的方式

2022-12-26 21:39:48 2903 1

原创 【Flink---01】Flink概述

1. Flink是什么?2 Flink在大数据架构中的位置3. Flink的特性4. Flink的API5. Flink的应用6. Flink vs Spark

2022-12-26 21:37:57 186

原创 【机器学习---03】感知机模型

1. 感知机模型是什么?有什么作用?2. 三要素2.1 模型2.2 策略2.3 算法

2022-12-18 21:14:33 1063

原创 【机器学习---02】机器学习相关名词解释

1. 损失函数、期望风险、经验风险2. 经验风险最小化和结构风险最小化2.1 结构风险(正则化)2.2 两者的定义3. 训练误差 与 测试误差4. 过拟合 与 欠拟合4.1 过拟合及解决方法4.2 交叉验证4.3 欠拟合5. 泛化误差 与 泛化误差上界5.1 泛化误差5.2 泛化误差上界6. 生成模型 与 判别模型7. 最大似然估计7.1 极大似然估计7.2 最大似然估计 与 经验风险 关系

2022-12-18 21:13:34 1579

原创 【机器学习---01】机器学习

1. 什么是机器学习?2. 机器学习分类2.1 基本分类2.2 按模型分类2.3 其他分类(不重要)3. 机器学习三要素4. 监督学习的应用(分类、标注、回归问题)

2022-12-18 21:11:57 606

原创 【Hive---23】实际案例之分组TopN问题 『row_number() over()』

1. 问题2. 分析3. 代码实现

2022-12-18 20:53:27 83

原创 【Hive---22】实际案例之累计金额 『 sum() over()』

1. 问题2. 分析3. 代码实现

2022-12-18 20:28:15 291

原创 【Hive---21】实际案例之查询连续登陆 『 date_add() | lead() over()』

1. 问题2. 分析3. 代码实现

2022-12-18 16:32:12 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除