weixin_42412645
码龄7年
关注
提问 私信
  • 博客:173,779
    173,779
    总访问量
  • 45
    原创
  • 607,666
    排名
  • 488
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-06-07
博客简介:

weixin_42412645的博客

查看详细资料
个人成就
  • 获得39次点赞
  • 内容获得18次评论
  • 获得206次收藏
  • 代码片获得206次分享
创作历程
  • 2篇
    2022年
  • 3篇
    2021年
  • 5篇
    2020年
  • 35篇
    2019年
成就勋章
TA的专栏
  • hive
    25篇
  • Flink
    18篇
  • Spark
    1篇
兴趣领域 设置
  • 大数据
    hive
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hive求某天是当年第几周形如yyyyww

两者是有差异mysql是从周一作为这周起始时间,hive是从周日作为这周起始时间。mysql有date_format求当年第几周。为了同mysql保持一致需要当前时间减1天。同时hive也有相应的函数。
原创
发布博客 2022.08.10 ·
847 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

HIVE实现连续时间间隔时间序列

hive生成连续时间间隔时间序列。比如每隔10分钟生成连续时间序列
原创
发布博客 2022.06.07 ·
2752 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

HIVE生成数字全局唯一键ID

1.row_number() over() (生成全局递增唯一ID)selectrow_number() over() id,afrom test1此方法会产生一个reduce。数据量比较大会产生数据倾斜。2.生成全局唯一数字ID(非递增连续)先将原始数据随机分成101份(可以理解为步长)create table test2asselecta,cast(rand()*100 as bigint) numfrom test1再每份内排序后生成一个唯一IDselect
原创
发布博客 2021.06.17 ·
2773 阅读 ·
1 点赞 ·
2 评论 ·
4 收藏

HIVE列转行注意点

HIVE列转行注意分隔成数组字段不能为null当hive进行列转行需要注意分割成数组不能为null,不然这列就会漏掉。原始数据结果展示对于这样的情况只能用union all将两部分数据合起来selecta,bbfrom testlateral view explode(split(b,’:’)) num as bbwhere b is not nullunion allselecta,b bbfrom testwhere b is null或者用nvl将null转化
原创
发布博客 2021.06.09 ·
190 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

HIVE解析JSON数组

HIVE解析JSON数组数据示例:[{“payAmount”:“375000”,“payChannelCode”:“BOC”},{“payAmount”:“376000”,“payChannelCode”:“AOC”}]1.get_json_object函数提取json数组里面特定字段值get_json_object可以提取json数组指标位置的值(跟数组一样)selectget_json_object('[{"payAmount":"375000","payChannelCode":"BOC
原创
发布博客 2021.06.07 ·
5894 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

hive正则表达式反向引用

反向引用捕获会返回一个捕获组,这个分组是保存在内存中的,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。根据捕获组的命名规则,反向引用可分为:1.数字编号组反向引用:\k或
umber2.命名编号组反向引用:\k或\‘name’捕获组是匹配子表达式的内容按序号或者命名保存起来以便使用,主要是用来查找一些重复的内容或者替换指定字符。J...
原创
发布博客 2020.01.22 ·
1378 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SQL16号统计1~15号数据,1号统计上月15~月底数据

由于我司提供的脚本周期只有天,周这种。于是想用周期为天来执行脚本。逻辑如下:selectday,count(*)from testwhere( ‘20191215’ = ‘date’ and day>=‘20191201’ and day<=‘20191215’)or(‘20200101’ = ‘date’ and day>=‘20191215’ and day...
原创
发布博客 2020.01.19 ·
821 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive存储复杂的json格式

1.hive复合数据类型 ARRAY < data_type > MAP < primitive_type, data_type > STRUCT < col_name : data_type [COMMENT col_comment], ...> 2.json建构于两种结构 “名称/值”对的集合(A collection of name...
原创
发布博客 2020.01.13 ·
2638 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

使用max函数实现唯一性

原始数据type line amount 1 a 111 b 222 a 1112 b 2221.列转行select type, max(case when line='a' then amount else 0 end ) a, max(case when lin...
原创
发布博客 2020.01.10 ·
340 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive使用size函数求分割后字符串个数注意点

1.split的字段串是空串(a='')size(split(a,','))=12.split的字段串是null(a is null)size(split(a,','))=-1
原创
发布博客 2020.01.02 ·
3294 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

hive时间戳转化格式化

1.bigint转化成时间戳 1.1 bigint为13(毫秒级) 1.date_format函数 select date_format(cast(1577379134405 as timestamp),'yyyyMMddHHmmss') 2.from_unixtime函数 select from_unixtime(cast(substr(15773791...
原创
发布博客 2019.12.27 ·
2901 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

hive实现like模糊配对

testa表(字段a) aaa bba cccddd dddaaatestb表(字段b) a b 1. 使用like+concat模糊配对select a.afrom testa a ,testb bwhere a like concat('%',b.b,'%')group by a.a2. 使用locate函数select a.a...
原创
发布博客 2019.12.26 ·
5368 阅读 ·
2 点赞 ·
0 评论 ·
15 收藏

hive字符串截取

1.根据分割符截取1.1 split函数selectsplit(‘a????️c’,’:’)[0],split(‘a????️c’,’:’)[2]1.2 regexp_extract函数selectregexp_extract(‘a????️c’,’(.)????.)????.)’,1),regexp_extract(‘a????️c’,’(.)????.)????.)’,3)selectregexp_extract(‘a????...
原创
发布博客 2019.12.26 ·
18214 阅读 ·
4 点赞 ·
0 评论 ·
32 收藏

hive除重的几种方法

1.除重不做统计操作1.1使用distinctselectdistncta,bfrom test1.2使用group byselecta,bfrom testgroup bya,b1.3使用分组函数selecta,bfrom(selecta,brow_number() over(partition by a,b) as row_idfrom tes...
原创
发布博客 2019.12.24 ·
706 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink数据流类型转换

Flink为流处理和批处理分别提供了DataStream API和DataSet API。在开发工作中都是利用这些API进行程序编程。不同DataStream之间转换从而形成stream图。网上Flink1.4流程转换图有点旧,不过也能说明之间的转换关系。从上面的转换关系可以看出各种不同的流通过operator最后都转换为DataStream。可以从官网查看各个流的转换关系https://ci....
原创
发布博客 2019.08.11 ·
4533 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Flink使用BucketingSink自定义多目录写入

由于平台的不稳定性,小时解析日志老是出错需要人为干涉。最近在想能不能通过flink实时解析日志入库。查了一下网上的资料可以使用BucketingSink来将数据写入到HDFS上。于是想根据自定义文件目录来实行多目录写入。添加pom依赖` <dependency> <groupId>org.apache.flink</groupId> ...
原创
发布博客 2019.08.03 ·
3863 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

IDEA开启异步调试

由于现在很多程序都是异步执行,于是debug的时候需要开启异步调试,刚好IDEA有这个功能。
原创
发布博客 2019.07.28 ·
8723 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

kill(杀死)hive进程(job)的2种方法

先去yarn界面查找你要杀死的程序,在最右边ApplicationMaster点进入下面界面方法1.yarn application -kill application_Id方法2.hadoop job -kill job_id
原创
发布博客 2019.07.26 ·
8471 阅读 ·
4 点赞 ·
1 评论 ·
12 收藏

Flink的KeyedStateStore的5中state

KeyedStateStore有ValueState,ListState,ReducingState,AggregatingState,MapState5中状态。下面实现这5种状态示例。1.KeyedStateStore接口的所有get方法2.ValueState DataStream<MyType> stream = ...; KeyedStream<MyType...
原创
发布博客 2019.07.23 ·
755 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive字段类型为bigint但在where条件却用了字符串a!=''导致执行计划和结果有问题

今天写了一段SQL,代码逻辑没有问题,但是结果老是跟实际不符合。于是用explain查了一下执行计划也没有什么问题。于是只能一步一步临时表的查问题。最后定位到where a!=’’。下面是hive支持的隐式类型转换图表hive测试结果:...
原创
发布博客 2019.07.22 ·
1737 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多