解决方案
无影风Victorz
纸上得来终觉浅,绝知此事要躬行 https://github.com/vicotorz
展开
-
基于MirrorMaker与火山引擎的Kafka数据同步
Kafka MirrorMaker是Kafka官网提供的跨数据中心流数据同步方案,其实现原理是通过从Source集群消费消息,然后将消息生产到Target集群从而完成数据迁移操作。用户只需要通过简单的consumer配置和producer配置,启动MirrorMaker,即可实现实时数据同步。本文章主要聚焦跑通Kafka MirrorMaker数据迁移流程。实验中的Source Kafka版本为2.12,基于本地机器搭建。Sink集群为火山引擎Kafka中间件。原创 2023-01-30 14:45:00 · 485 阅读 · 0 评论 -
【解决方案】数据随机生成脚本
因需要生成数据,验证数据库相关问题,且此需求可能以后也会经常遇到,故将代码粘贴如下。在基础的云ECS,通过python3执行即可。原创 2022-11-23 15:03:05 · 307 阅读 · 0 评论 -
定期删除Hdfs文件脚本
#!/bin/bashusage="$0 Usage: xx [days]"if [ ! "$1" ]then echo $usage exit 1finow=$(date +%s)./hadoop fs -ls -r xxxx路径 | while read f; do #取文件串中的日期信息 dir_date=`echo $f | awk '{print $6}'` difference=$(( ( $now - $(date -d "$dir_date" +%s) ...原创 2021-10-25 10:53:01 · 267 阅读 · 0 评论 -
【错误处理】git-am is in progress
gitpull的时候出现这样的错误。Itlookslikegit-amisinprogress.Cannotrebase.用如下方法解决:rm-rf.git/rebase-apply如果采用的是sourcetree,执行控制台命令中执行上述语句即可。参考:http://www.voidcn.com/article/p-fikodend-bnx.html...原创 2020-03-18 09:58:59 · 1211 阅读 · 0 评论 -
TopK 问题
问题:海量日志数据,提取出某日访问百度次数最多的那个IP分析:百度作为国内第一大搜索引擎,每天访问它的IP数量巨大,如果想一次性把所有IP数据装进内存处理,则内存容量明显不够,故针对数据太大,内存受限的情况,可以把大文件转化成(取模映射)小文件,从而大而化小,逐个处理。换言之,先映射,而后统计,最后排序。解法:具体分为以下3个步骤1.分而治之/hash映射 首先把这一天访问百度日...原创 2020-02-10 09:42:50 · 197 阅读 · 1 评论 -
Guava工具包使用
Guava工具包含了若干被Google的 Java项目广泛依赖 的核心库,例如:集合 [collections] 缓存 [caching] 原生类型支持 [primitives support] 并发库 [concurrency libraries] 通用注解 [common annotations] 字符串处理 [string processing] I/O 等等引用&l...原创 2020-01-06 21:44:05 · 927 阅读 · 0 评论 -
【错误处理】Hive报错:For direct MetaStore DB connections, we don't support retries at the client level
在使用hive时,出现了这样的错误:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don't support retries at the clien...原创 2018-08-31 19:40:08 · 1615 阅读 · 3 评论 -
【解决方案】【Hive】Hive压缩文件格式转换方案
目标:将Hive中已经存在的Lzo压缩格式表转换为Orc格式,并保证数据不丢失执行与测试过程:1. 创建lzo相关表:(验证过程,可忽略)create external table test_lzo(id int)partitioned by(`date_par` string)ROW FORMAT SERDE'org.apache.hadoop.hive.serde...原创 2019-09-10 10:59:50 · 519 阅读 · 0 评论