- 博客(8)
- 收藏
- 关注
原创 正则匹配无处不在
正则匹配无处不在场景一场景二场景三总结说明:本文所用环境为postgresql场景一前两天,同事问到怎么匹配金额字段(数值),印象中好像是写过类似的,翻到之前写的一篇博客,链接在段末给出。不过写的稍微有点问题,博客中的匹配会认为 ‘.13’,’.5’… 这种以小数点开头的数值也是能匹配上的,这个要根据具体的要求来定。如果要求小数点前面必须要有数字,稍作改动,将*(重复出现0次或1-n次)改为+(重复出现1-n次);同理,小数点后面的如果有要求也可以做相同的调整。链接:https://bl..
2021-04-05 23:49:10 145
原创 正则匹配纯数字(Oracle、Postgresql、Hive)
正则匹配纯数字(Oracle、Postgresql、Hive)一、Postgresql中如何匹配二、Oracle中如何匹配二、Hive中如何匹配总结工作中遇到一个场景,需要匹配查询出全是数字的记录,是在GP里,这里针对几种数据库做一个总结。三种数据库的原始数据相同:一共13条数据,三条比较特殊的,income值为'renmin','人民'和null一、Postgresql中如何匹配select * from salary_2020 where income ~'^-?(\d*.\d..
2021-01-06 01:02:13 13966 1
原创 Hive中分析函数的使用
Hive中分析函数的使用前言一、常用的分析函数二、分析函数的应用1.两张数据表2.需求场景前言Hive中也支持分析函数(也叫窗口函数)的使用,数据开发中使用分析函数的情况非常之多,可以极方便的得到想要的数据呈现,便于分析。一、常用的分析函数ROW_NUMBER() 从1开始,按照顺序,生成分组内记录的序列,不会产生重复排名,若根据排序条件有相同的,则进行随机排序。1 2 3 4 5…RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位,1 2 2 4 5DENSE_RA..
2020-12-12 20:53:17 477
原创 创建Producer发送数据到Kafka集群
创建Producer发送数据到Kafka集群前言创建MyProducer给Five主题发送数据创建带回调函数的Producer总结前言实时数据处理现在已经成为数据开发工程师所必须的一项技能,在学习kafka过程中敲的Java代码,这里做个记录,简单入门创建MyProducer给Five主题发送数据import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.produc..
2020-12-04 16:26:05 357
原创 Hive中的两种行列转换
Hive中的两种行列转换1.将列上的多个值打成一行(多列)的行列转换案例一场景一(列转行)场景二(行转列)2.字符串合并与拆分形式的行列转换案例二场景一(列转行)场景二(行转列)总结1.将列上的多个值打成一行(多列)的行列转换案例一场景一(列转行)数据如下:name item score张三 数学 58张三 英语 83张三 语文 89李四 数学 67李四 英语 35李四 语文 92王五 数..
2020-12-01 18:28:02 1485
原创 面试常见的Linux文本处理命令整理(1)
面试常见的Linux文本处理命令整理前言AWK在面试中遇到的两个题目:总结前言 Linux平台下处理数据有几个常见的命令(awk,sed,cut,sort),也是数据开发,数据分析,数据处理等各种面试笔试经常会问道的一个点,本文对其做一个经验性的总结。AWK在面试中遇到的两个题目:1.用一句shell命令取出本机的ip地址(很久没用linux的后台,当时完全没想到awk和sed) 思路:用ifconfig或者ip addr 打印出ip地址相关信息,然后对..
2020-11-30 22:27:51 192
原创 Hive中字段和表注释中文乱码
Hive中字段和表注释中文乱码hive中乱码修改方法1.hive的元数据库字符集修改2.hive-site.xml配置修改3.修改表注释和字段注释总结hive中乱码建表如下:CREATE EXTERNAL TABLE ods_user ( user_num STRING COMMENT '用户编号', mobile STRING COMMENT '手机号码', reg_date STRING COMMENT '注册日期')COMMENT '用户资料表'PARTITI..
2020-11-08 00:41:05 746
转载 Map join和Common join详解
利用hive进行join连接操作,相较于MR有两种执行方案,一种为common join,另一种为map join ,map join是相对于common join的一种优化,省去shullfe和reduce的过程,大大的降低的作业运行的时间。 一.先决条件 emp表 hive...
2020-10-24 15:25:10 445
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人