- 博客(11)
- 收藏
- 关注
原创 ES查询文本字段为空字符串的数据,排查数据问题
在处理用户表的时候,发现用户名称少于用户总数,而且没有null值,查询发现:用户表出现有用户名为空字符串的数据,即使用空字符串("")查询,能够匹配到数据;排查清洗代码,并没有发现空字符串从何而来查询计数语句GET user_info_index/_doc/_count{ "query": { "bool": { "must": [ { "term": { "user_name.keyword": {
2020-09-02 19:19:36 4922
原创 Kafka消费者参数踩坑记
一 参数分析这里就涉及到的问题是,消费者在创建时会有一个属性max.poll.interval.ms,该属性意思为kafka消费者在每一轮poll()调用之间的最大延迟,消费者在获取更多记录之前可以空闲的时间量的上限。如果此超时时间期满之前poll()没有被再次调用,则消费者被视为失败,并且分组将重新平衡,以便将分区重新分配给别的成员。循环调用poll拉取broker中的最新消息。每次拉取后,会有一段处理时长,处理完成后,会进行下一轮poll。引入该配置的用途是,限制两次poll之间的间隔,消息处理逻辑
2020-07-22 18:40:14 3749
原创 Elasticsearch安装笔记
1 准备JDK每个节点:安装JDK1.8 并配置JAVA_HOME2 创建ES用户每个节点:默认ES 6.x.x 不允许root用户运行的,否则ES运行的时候会报错,所以我们需要创建新的用户[root@es-1 zywa]# groupadd es [root@es-1 zywa]# useradd es -g es [root@es-1 zywa]# passwd es 更改用户 es 的密码 。 新的 密码: 重新输入新的 密码: passwd: 所有的身份验证令
2020-06-30 18:32:53 275
原创 使用Elasticdump迁移Elasticsearch数据--笔记
使用Elacticdump迁移Elasticsearch数据--笔记Elasticdump的默认参数预览源集群下载json文件上传json数据到目标集群Elasticdump报错总结上传的时候使用通配符* 匹配文件,报错如下索引未开启自动映射(严格模式),新增字段会报错Elasticdump的默认参数预览打开Elasticdump的安装所在目录,使用vim查看bin目录下的elasticdum...
2020-05-01 10:10:44 1206
原创 通过SQL实现账号余额的历史拉链操作
1. 题目在论坛看到的Oracle的SQL练习题,想到Hive也可以实现,就拿来试了一下~~2.思路可以通过分组函数 lead() over() 来取Start_dt 和End_dt3.解答1)建源表create table acctno_bal(Acctno bigint COMMENT ‘账号’,Current_bal int COMMENT ‘余额’,Txn_dt str...
2020-03-02 09:04:10 1848
原创 hive任务 处理小文件合并的参数配置
hive 输出端 小文件合并 参数配置一. 小文件产生使用hive过程中经常会遇到小文件问题:①,在执行插入数据操作过程中,可能会产生小文件;②,map-only作业,可能会产生小文件;③,map-reduce作业,每个reduce输出一个文件,可能产生小文件二. 小文件影响① hdfs存储:存储过多小文件会产生大量元数据,会增加在NameNode中占有的空间,影响集群健康和拓展② hi...
2019-11-29 09:14:05 3833
原创 Hive中正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结
Hive中 正则表达式替换函数 regexp_replace和正则表达式解析函数 regexp_extract的用法总结Hive中有很多字符串相关的函数,其中有两个与正则表达式相关的比较特殊,近期使用的时候做了较多的测试,做个笔记,鼓励一下自己,每天进步一点点。正则表达式替换函数 regexp_replace正则替换是常用的字符串替换函数语法:regexp_replace(string ...
2019-10-24 18:15:57 22908
转载 SQL 函数 instr的用法
SQL 函数 instr的用法转自: http://blog.sina.com.cn/s/blog_6094cbf30100frz0.htmlINSTR(C1,C2,I,J) 在一个字符串中搜索指定的字符,返回发现指定的字符的位置;C1 被搜索的字符串C2 希望搜索的字符串I 搜索的开始位置,默认为1J 出现的位置,默认为1SQL>select instr...
2019-10-23 16:42:23 3184
原创 Hive-CDH参数修改指南--增加自定义参数--命令行显示当前数据-查询结果显示表头(类似修改源生Hive的hive-site.xml文件)
Hive-CDH参数修改指南(类似修改源生Hive的hive-site.xml文件)问题描述 默认配置下,每次启动Hive都要手动输入配置选项, 才能实现:在命令行显示当前数据库(set hive.cli.print.current.db=true;)、查询结果显示表头(set hive.cli.print.header=true;)。 而且CDH版的Hive直接修改hive-site.x...
2019-10-23 12:07:22 1688
原创 Hive数据库中,利用rtrim()和regexp_replace()去掉字符串'1234034214sdf00000'最后几位的'0'
需求场景:去掉字符串’1234034214sdf00000’后面几个’0’场景分析:①先用regexp_replace()把’0’替换为空格’ ’②rtrim()去掉最后的空格’ ’③将空格’ ‘替换为’0’具体操作#1 插入一条数据insert into table testzhengze values(4,"1234034214sdf00000");#2 查看数据sel...
2019-10-22 17:54:12 6798
原创 使用Elasticsearch查询某个内嵌字段是否为null空值的结果
@TOC使用elasticsearch查询某个字段为空值的结果查询某个字段为空值的结果,在MySQL或者Hive中,可以使用sql语句查询:“select * from 表名 where 字段名 is null”在elasticsearch中查询语句如下1 非内嵌字段的查询原文地址:https://blog.csdn.net/zhang862520682/article/details/...
2019-09-24 15:42:53 8175
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人