大数据
文章平均质量分 54
云想慕尘
这个作者很懒,什么都没留下…
展开
-
hive 修改表结构后回溯数据发现新增字段值为空的问题解决方案
问题描述通过alter table 增加字段:ALTER TABLE dw.video_profile CHANGE p_album p_album string AFTER p_content_phrase;ALTER TABLE dw.video_profile CHANGE p_content_quality p_content_quality string AFTER p_album;然后回溯数据,overwrite写到昨日分区,写完后查询发现昨日分区新增的字段中值为空。原因hive原创 2022-03-03 20:35:22 · 2780 阅读 · 0 评论 -
hive执行insert overwrite失败,报错 could notbe cleaned up错误
问题描述用户zhangsan执行insert overwrite:INSERT OVERWRITE table temp.push_temp PARTITION(d_layer='app_video_uid_d_1')SELECT ...报错目的目录无法清理——could not be cleaned up:Failed with exception Directory hdfs://Ucluster/user/hive/warehouse/temp.db/push_temp/d_layer原创 2021-11-29 16:40:22 · 6031 阅读 · 0 评论 -
一个查询ip归属地的hive udf
背景工作中会用到查询ip归属地的场景,购买了ip库数据,因官方不提供数据遍历方案,所以无法全量导入到hive中,只能使用udf进行查询。数据源来自https://www.ipip.net/,数据格式为.ipdb,如:ipv4_china_cn.ipdb。udf编码maven pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"原创 2021-07-01 15:52:10 · 1097 阅读 · 0 评论 -
flink 高可用 high-availability 配置的重试次数无效问题
问题背景我根据这篇博客https://blog.csdn.net/cndotaci/article/details/106870413的介绍,配置了flink基于yarn的高可用,测试时发现配置的任务失败重试2次没有生效,我测试到第6次时,任务仍然能够被yarn拉起如上图,除第一次手动启动外,下面的5次都是yarn的HA生效自动拉起。那么,下面配置中的重试次数为什么没有生效?flink版本:1.10.0flink-conf.yaml配置:$ grep -v ^# flink-conf.yaml原创 2020-07-02 07:46:44 · 2912 阅读 · 4 评论 -
flink yarn-session.sh启动任务指定的应用名和队列无效问题
问题背景我有一个hadoop集群和一台机器A.我在机器A上,使用命令:bin/yarn-session.sh -n 5 -jm 1g -tm 4g -s 4 -qu root.flink -nm fsql-cli > /dev/null 2>&1 &启动了一个yarn-session,其中,指定了队列root.flink和应用名fsql-cli。但是,在yarn控制台中看到应用的名称和队列跟指定的名称大多数情况下不一致,如图:启动后,应用名为:Flink sess原创 2020-07-01 22:20:26 · 4867 阅读 · 0 评论 -
可能是史上覆盖flinksql功能最全的demo--part2
接上一篇文章可能是史上覆盖flinksql功能最全的demo–part1Flink SQL join Table的5种方式静态表常规join静态表常规join指的是:静态表join静态表例:按地区和优先级显示特定日期的客户及其订单-- 订单表dev_orders(基于S3的静态表) join MySQL表SET execution.type=batch;USE CATALOG hive;SELECT r_name AS `region`, o_orderpriority AS `pr原创 2020-06-21 23:32:34 · 342 阅读 · 0 评论 -
可能是史上覆盖flinksql功能最全的demo--part1
该demo基于flnk 1.10版本,由flink大佬fhueske发布到github:https://github.com/fhueske/flink-sql-demo。动手实践前请先git clone https://github.com/fhueske/flink-sql-demo.git。由于该demo内容较多,所以文章拆成了2部分,此为第一部分。场景和数据介绍此demo主要演示:Flink SQL如何处理不同存储系统中的数据Flink SQL如何使用Hive Metastore作为外原创 2020-06-21 21:22:47 · 1183 阅读 · 0 评论 -
推荐一款好用的elasticsearch Web管理工具cerebro
cerebro是一款开源的elasticsearch Web管理工具,主要具有以下功能:查看es集群各节点系统主要指标,如cpu、内存、磁盘等查看和管理es集群中的索引以及索引在各节点的分布情况,含分片数、副本数、文件数等集群管理、索引管理、模板管理等项目地址:https://github.com/lmenezes/cerebro部署# 拉取镜像docker pull lmenezes/cerebro# 运行docker run -p 8002:9000 lmenezes/cerebr原创 2020-06-20 18:26:47 · 1852 阅读 · 0 评论 -
druid 超期自动删除data节点数据
默认情况下,data节点会保留全部历史数据在本地,随着数据量的积累,会占用大量的磁盘空间,所以需要修改默认配置,使本地只保留近一段时间内的数据,超期的数据会被自动删掉。打开druid Web Console http://druid-master1:8081/#/datasources配置所有数据源默认,druid的data节点只保留近30天的数据:也可以不同数据源单独配置:...原创 2020-06-20 17:38:56 · 479 阅读 · 0 评论 -
hive 非正确json格式字段造成查询错误
1. 问题hive查询报错:Diagnostic Messages for this Task:[2020-04-02 05:32:04,360] {bash_operator.py:110} INFO - Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row [Error getting row data原创 2020-06-20 16:11:18 · 1066 阅读 · 0 评论 -
Flink on yarn 高可用环境配置 high-availability
1. 背景默认情况下一个flink job只启动一个jobManager,因此存在单点故障问题,所以生产环境中需要HA。因为生产环境中基于yarn集群的flink应用场景更多,本文只介绍基于yarn的flink高可用配置。2. 配置配置yarn集群级别AM重启上限# vim yarn-site.xml<property> <name>yarn.resourcemanager.am.max-attempts</name> <value>10原创 2020-06-20 12:05:37 · 1221 阅读 · 0 评论 -
使用Flink Metric Reporter 对flink任务指标进行监控
从flink1.8版本开始,reporter支持了将指标数据写入influxdb,用户可以自研可视化系统读取influxdb中的数据进行可视化。但是对中小型公司来讲,可能因为成本原因,大多并不会选择自研可视化,我们选择grafana进行flink metrics的可视化。本文主要重点讲述influxdb、prometheus为Reporter,将flink的metrics数据写入外部系统,并使用grafana进行可视化。安装配置方式手把手教学,如下:1. influxdb1.1 启动docker原创 2020-06-20 11:52:41 · 7110 阅读 · 1 评论 -
一次因为kafka分区的leader不为优先副本导致的消费堆积问题的原因排查及问题解决方法
一次因为kafka分区的leader不为优先副本导致的消费堆积问题的原因排查及问题解决方法问题描述首先,收到了消息堆积的报警,查看监控发现延迟如下:接下来用kafka客户端脚本工具,查看具体延迟信息:发现延迟发生在2个partition(12,13)上,且消费者为同一台机器10.42.112.228问题排查过程消费端问题?因为延迟partition的消费者在同一台机器,所以开始怀疑是否消费端存在问题?查看该消费端机器10.42.112.228的cpu、内存、磁盘等状态,未发现明显异常原创 2020-06-20 11:32:14 · 649 阅读 · 0 评论 -
Flink中的时态表 Temporal Tables
flink中的临时表(temporal table)是什么,以及怎么创建临时表和临时表函数。临时表表示一个可变表上(参数化)视图的概念,该视图返回表在特定时间点的内容。翻译 2020-06-20 11:17:21 · 3812 阅读 · 2 评论