️一条大咸鱼
码龄3年
关注
提问 私信
  • 博客:42,017
    社区:4
    42,021
    总访问量
  • 37
    原创
  • 729,818
    排名
  • 9
    粉丝
  • 0
    铁粉

个人简介:大数据从业者,兴趣爱好者

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 加入CSDN时间: 2021-11-27
博客简介:

mx13156的博客

查看详细资料
个人成就
  • 获得64次点赞
  • 内容获得1次评论
  • 获得73次收藏
  • 代码片获得149次分享
创作历程
  • 4篇
    2023年
  • 33篇
    2022年
成就勋章
TA的专栏
  • flink
    1篇
  • SQL语法和性能调优
    9篇
  • Hadoop
    3篇
  • 数仓分层
    1篇
兴趣领域 设置
  • 大数据
    oraclesqlmysqlhbasehadoophiveredismongodbstormzookeepersparkflumekafkaflinksqlserver
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

你应该知道的SQL中常用函数

语法为:select 字段 from 表 where 条件 group by 字段 having 条件。语法为:select 字段 from 表 group by 字段。语法为:select first(字段) from 表。语法为:select last(字段) from 表。语法为:SELECT AVG(字段) FROM 表。语法为:select max(字段) from 表。语法为:select min(字段) from 表。语法为:select sum(字段) from 表。2.count函数。
原创
发布博客 2023.06.01 ·
482 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

初识Python

print(3 > 4 and 4 < 5) # False 同时为真时才为真。print(a.index(3)) # 返回列表第一次出现该元素的位置 0。print(3 > 4 or 4 < 5) # True 有一个为真是真。print(a.count(1)) # 统计元素出现的次数 2。print(1 + 1 >= 2) # 大于等于: True。print(5 / 2 4) # 大于:False。
原创
发布博客 2023.04.21 ·
775 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

SQL优化,让你的SQL速度飞起来

in使用虽然非常方便,代码看起来也简单明了,但是会对子查询的结构进行一一扫描所以速度会相应的比较低。排序也会影响查询的效率,因为排序可能会在磁盘中进行,效率会大大降低。常见的会排序的运算和函数有:group by ,order by ,聚合函数,distinct,union,以及窗口函数。通常不同SQL语句能够产生同样的结果,但是不同SQL代码所执行耗费的时间不完全相同,因此考虑到响应效率,必须对相应的代码进行调整,使其能够以最快的速度查询出我们想要的结果。因此减少中间表的使用也是提高效率的一个重要方法。
原创
发布博客 2023.04.03 ·
279 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

flink常用基本算子

flink中常用的基本转换算子有:map,flatmap,filter等算子。
原创
发布博客 2023.02.08 ·
646 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

调用存储过程和函数

存储过程通过call语句来调用,其语法格式为: call 存储过程名称 参数。 2.调用存储函数。
原创
发布博客 2022.12.05 ·
555 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

MySQL中如何创建存储过程和存储函数(下篇)

上两篇主要说了如何创建存储过程和存储函数,本篇主要说流程控制。控制语句主要有,if,case,loop,leave,iterate,repeat以及while语句。
原创
发布博客 2022.11.30 ·
459 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

MYSQL中如何创建存储函数和存储过程(中篇)

上篇中说道存储函数和存储过程的创建,本篇讲变量的使用以及光标的使用。查询语句大都会返回大量的记录,此时需要在存储过程和存储函数中使用光标来逐条读取查询结果的数据。光标必须在声明处理程序前,并且变量和条件还必须在声明光标前辈声明
原创
发布博客 2022.11.29 ·
726 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

MYSQL中如何创建存储过程和存储函数(上篇)

存储程序分为存储过程和存储函数。在MySQL中创建存储过程和存储函数的语句分别是create procedure 和create function。使用call语句来调用存储过程,只能用输出变量返回值。
原创
发布博客 2022.11.28 ·
2288 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

SQL中的子查询及好处-(ANY,ALL,EXISTS,IN)关键字

子查询就是一个查询语句嵌套在另一个查询语句内部的查询,这样做就会很方便的基于一个表或者多个表去查询数据。子查询可以使用很多关键字比如有ANY,ALL,IN,EXISTS,以及运算符,如 >,
原创
发布博客 2022.11.27 ·
1320 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

SQL中常见的几种连接方法-(内连接,左连接,右连接)

根据所关联的字段进行匹配,将匹配上的数据组合成新的记录,也就是所,在内连接查询中,只有满足条件的记录才会出现在结果关系中。一般在实际的应用中主要用到的是做关联,因为更符合人们的阅读习惯。连接是数据库主要的特点,通常一个表中不会存放不同实体的信息,不同实体的信息存在不同的表当中,但是要同时查出多个表当中的信息时就需要多个表合并到一起进行查询,此时连接表的作用就出来了。在表建立时常把一个实体的所有信息存放在在一张表中,当查询数据时,通过连接操作查询出存放在多个表中的不同实体的信息。
原创
发布博客 2022.11.26 ·
2812 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

SQL中常用的聚合函数,知道这些就够了

sum()是一个求和函数,返回的指定列的总和。sum可以和group by搭配使用,返回的是每个分组的总和。需要注意的是sum函数在计算时会列值为null的行。在实际表的查询中,有时候不是简单的查些数据,而是需要对数据进行一些汇总,此时就要用到聚合函数。count()函数统计数据表中所包含的总行数,或者根据分组条件返回每个分组中的总的行数。avg()函数是计算返回的是所有行数数据的平均值。max()函数返回的是指定列的值最大的一个数据。min()函数和max正好相反,返回的是最小值的数据。
原创
发布博客 2022.11.26 ·
7751 阅读 ·
6 点赞 ·
0 评论 ·
17 收藏

简述SQL中常用关键字以及通配符

DISTINCT主要是用来去重的,有时候数据会产生大量重复,而这些重复的数据是不需要的,因此就需要过滤掉,此时DISTINCT的作用就出来了。OR关键字也是和where搭配使用,但是和AND不一样的是返回结果的只要满足OR条件任意一个都会返回,并且执行顺序在AND关键字的后面。IN操作符用来查询满足指定范围内的条件记录,使用IN关键字,将所有的检索条件用括号括起来,中间用逗号分隔,注意用使用英文逗号。AND关键字主要和where关键字搭配使用,筛选出同时满足多个条件的值。2.BETWEEN AND关键字。
原创
发布博客 2022.11.24 ·
2370 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

SQL关键字-group by--having--where--order by(上篇)

SQL常用关键字where,order by,group by,having等关键字的用法和相关注意点。
原创
发布博客 2022.11.23 ·
168 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

hive通用优化-数据倾斜优化-mr程序task个数调整

reducetask个数,用过代码指定,job.setNumReduceTask(N),在hive中reducetask的个数受一下几个条件的控制。maptask个数,在hive中,调整maptask的个数直接去HDFS调整文件的大小和个数,效率较高。方案一:开启map短聚合hive.map.aggr=true;方案一:提前过滤,将大数据变为小数据,实现map join。方案二:使用bucket join。方案三:数据倾斜时自动负载均衡。方案三:使用skew join。方案二:实现随机分区。
原创
发布博客 2022.09.06 ·
702 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive通用优化-join优化

底层还是mr的join优化。map join适合小表join大表或者小表join小表。方式二:sort merge bucket join。方式一:Bucket map join。reduce join适合于大表join大表。bucket join适合于大表join大表。
原创
发布博客 2022.09.05 ·
1837 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

hive中通用调优-fetch抓取-mr本地模式

mr本地模式:如果非要执行mr,能够执行本地的就不要提交yarn执行,默认是关闭的,意味着只要走mr就提交到yarn。Fetch抓取机制:在执行SQL的时候,能不走mr就不走mr,尽量直接去操作数据文件。hive提供了一个参数,自动切换mr程序为本地模式,如果不满条件,就执行yarn模式。参数设置:hive.fetch.task.conversion= more。mapreduce.framework.name = local 本地模式。通常情况下,全局查找,字段查找,limit查找都不走mr程序。
原创
发布博客 2022.09.01 ·
601 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Hive中文件存储格式(text,orc,parquet)

hive中表的存储格式,不仅支持text文本格式,还支持其他很多格式。hive在建表的时候通过stored as 指定格式,如果没有指定格式就默认为textfile格式。hive默认的查询引擎是MapReduce,因此通常说的hive压缩是MapReduce压缩。数据存储效率极高,用于查询方便。map输出端,减少shuffle的数据量,提高shuffle时网络io的效率。当然压缩会带来一些弊端,浪费时间,消耗CPU,内存,某些优秀的压缩算法需要钱。reduce端,减少文件的大小,降低磁盘的存储空间。...
原创
发布博客 2022.08.30 ·
2072 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hive--窗口函数--lead函数--lag函数--first_value函数--last_value函数

LAST_VALUE 取分组内排序后,截止到当前行,最后一个值。FIRST_VALUE 取分组内排序后,截止到当前行,第一个值。lag函数主用与统计窗口内向上第几行值。lead用于统计窗口内向下第几行值。
原创
发布博客 2022.08.29 ·
695 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive--窗口函数--排序函数--row_number--dense_rank--rank--ntile

ntile函数:将分组排序之后的数据分成若干指定的部分,尽量平分,优先满足最小的桶,彼此最多不想差一个。功能:主要对数据分组排序之后,组内顺序标号。适合场景:分组TopN问题。
原创
发布博客 2022.08.28 ·
296 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive--窗口函数--window子句

这里以rows between为例来讲解窗口范围的划分,rows表示物理层面上的行,跟字段值没关系。功能:控制窗口操作的范围。
原创
发布博客 2022.08.25 ·
582 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多