自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 ES查询文本字段为空字符串的数据,排查数据问题

在处理用户表的时候,发现用户名称少于用户总数,而且没有null值,查询发现:用户表出现有用户名为空字符串的数据,即使用空字符串("")查询,能够匹配到数据;排查清洗代码,并没有发现空字符串从何而来查询计数语句GET user_info_index/_doc/_count{ "query": { "bool": { "must": [ { "term": { "user_name.keyword": {

2020-09-02 19:19:36 4880

原创 Kafka消费者参数踩坑记

一 参数分析这里就涉及到的问题是,消费者在创建时会有一个属性max.poll.interval.ms,该属性意思为kafka消费者在每一轮poll()调用之间的最大延迟,消费者在获取更多记录之前可以空闲的时间量的上限。如果此超时时间期满之前poll()没有被再次调用,则消费者被视为失败,并且分组将重新平衡,以便将分区重新分配给别的成员。循环调用poll拉取broker中的最新消息。每次拉取后,会有一段处理时长,处理完成后,会进行下一轮poll。引入该配置的用途是,限制两次poll之间的间隔,消息处理逻辑

2020-07-22 18:40:14 3695

原创 Elasticsearch安装笔记

1 准备JDK每个节点:安装JDK1.8 并配置JAVA_HOME2 创建ES用户每个节点:默认ES 6.x.x 不允许root用户运行的,否则ES运行的时候会报错,所以我们需要创建新的用户[root@es-1 zywa]# groupadd es [root@es-1 zywa]# useradd es -g es [root@es-1 zywa]# passwd es 更改用户 es 的密码 。 新的 密码: 重新输入新的 密码: passwd: 所有的身份验证令

2020-06-30 18:32:53 259

原创 使用Elasticdump迁移Elasticsearch数据--笔记

使用Elacticdump迁移Elasticsearch数据--笔记Elasticdump的默认参数预览源集群下载json文件上传json数据到目标集群Elasticdump报错总结上传的时候使用通配符* 匹配文件,报错如下索引未开启自动映射(严格模式),新增字段会报错Elasticdump的默认参数预览打开Elasticdump的安装所在目录,使用vim查看bin目录下的elasticdum...

2020-05-01 10:10:44 1183

原创 通过SQL实现账号余额的历史拉链操作

1. 题目在论坛看到的Oracle的SQL练习题,想到Hive也可以实现,就拿来试了一下~~2.思路可以通过分组函数 lead() over() 来取Start_dt 和End_dt3.解答1)建源表create table acctno_bal(Acctno bigint COMMENT ‘账号’,Current_bal int COMMENT ‘余额’,Txn_dt str...

2020-03-02 09:04:10 1784

原创 hive任务 处理小文件合并的参数配置

hive 输出端 小文件合并 参数配置一. 小文件产生使用hive过程中经常会遇到小文件问题:①,在执行插入数据操作过程中,可能会产生小文件;②,map-only作业,可能会产生小文件;③,map-reduce作业,每个reduce输出一个文件,可能产生小文件二. 小文件影响① hdfs存储:存储过多小文件会产生大量元数据,会增加在NameNode中占有的空间,影响集群健康和拓展② hi...

2019-11-29 09:14:05 3785

原创 Hive中正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结

Hive中 正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结Hive中有很多字符串相关的函数,其中有两个与正则表达式相关的比较特殊,近期使用的时候做了较多的测试,做个笔记,鼓励一下自己,每天进步一点点。正则表达式替换函数 regexp_replace正则替换是常用的字符串替换函数语法:regexp_replace(string ...

2019-10-24 18:15:57 22323

转载 SQL 函数 instr的用法

SQL 函数 instr的用法转自: http://blog.sina.com.cn/s/blog_6094cbf30100frz0.htmlINSTR(C1,C2,I,J) 在一个字符串中搜索指定的字符,返回发现指定的字符的位置;C1 被搜索的字符串C2 希望搜索的字符串I 搜索的开始位置,默认为1J 出现的位置,默认为1SQL>select instr...

2019-10-23 16:42:23 3102

原创 Hive-CDH参数修改指南--增加自定义参数--命令行显示当前数据-查询结果显示表头(类似修改源生Hive的hive-site.xml文件)

Hive-CDH参数修改指南(类似修改源生Hive的hive-site.xml文件)问题描述 默认配置下,每次启动Hive都要手动输入配置选项, 才能实现:在命令行显示当前数据库(set hive.cli.print.current.db=true;)、查询结果显示表头(set hive.cli.print.header=true;)。 而且CDH版的Hive直接修改hive-site.x...

2019-10-23 12:07:22 1651

原创 Hive数据库中,利用rtrim()和regexp_replace()去掉字符串'1234034214sdf00000'最后几位的'0'

需求场景:去掉字符串’1234034214sdf00000’后面几个’0’场景分析:①先用regexp_replace()把’0’替换为空格’ ’②rtrim()去掉最后的空格’ ’③将空格’ ‘替换为’0’具体操作#1 插入一条数据insert into table testzhengze values(4,"1234034214sdf00000");#2 查看数据sel...

2019-10-22 17:54:12 6681

原创 使用Elasticsearch查询某个内嵌字段是否为null空值的结果

@TOC使用elasticsearch查询某个字段为空值的结果查询某个字段为空值的结果,在MySQL或者Hive中,可以使用sql语句查询:“select * from 表名 where 字段名 is null”在elasticsearch中查询语句如下1 非内嵌字段的查询原文地址:https://blog.csdn.net/zhang862520682/article/details/...

2019-09-24 15:42:53 8107

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除