![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 91
喜剧之皇
微信:Hurricane2015go
展开
-
Airflow 核心原理分析
.airflow架构 scheduler,它处理触发计划的工作流,并将任务提交给executor运行。 executor,处理正在运行的任务。在默认的 Airflow 安装中,它运行在scheduler中,但大多数适合生产的executor实际上将任务执行推送给workers。 webserver,它提供了一个方便的用户界面来检查、触发和调试 DAG 和任务的行为。 DAG Directory,由scheduler和executor(以及executor所有的wor.原创 2021-09-15 07:02:45 · 2740 阅读 · 1 评论 -
Flink高危漏洞 (CVE-2020-17518/17519) 修复指南
一、背景二、修复方法三、详细步骤1.准备flink源码2.找到修复的commit3.编译打包4.替换jar包四、总结一、背景 国家信息安全漏洞库(CNNVD)收到关于Apache Flink安全漏洞(CNNVD-202101-271、CVE-2020-17519)(CNNVD-202101-273、CVE-2020-17518)情况的报送。成功利用漏洞的攻击者,可在未授权的情况下,构造恶意数据执行任意文件读取或文件写入攻击,最终获取服务器敏感性信息或权限。Apache Flink 1.5.1 - .原创 2021-01-19 22:22:57 · 4348 阅读 · 4 评论 -
Hive源码本地IDEA调试的正确姿势
Hive源码本地IDEA调试的正确姿势背景Hive作为最最基础的大数据框架,可以说,没装Hive,就等于没有大数据这回事。Hive的功能也越来越强大,经过大多数用户市场的检验,也诞生许多稳定的版本。所以,大多数人把Hive当成黑盒使用,只需要明白其原理。但是,万一某种情况下,你的需求里出现未知bug或者有新的需求需要改造的时候,这时你不得不跟Hive源码打交道。本人在最近的Hive bug修复和开发中也走了不少弯路,网上也没像样的教程,现在总结出来给各位,避免踩坑。环境准备Hive这里选用hi原创 2021-01-11 11:20:58 · 2803 阅读 · 3 评论 -
Hadoop3.x中一把锁毁灭的大数据集群
hadoop3.x中一把锁毁灭整个大数据集群集群版本:HDP3.1.5Hadoop版本:Hadoop3.1.1源码地址:https://github.com/hortonworks/hadoop-release/tree/HDP-3.1.5.152-1-tag一、前置知识 大家都知道hadoop的核心组件是HDFS和YARN,HDFS负责存储,YARN负责计算资源管理,今天要重点扯一扯YARN。YARN的架构跟众多分布式架构一样是主从式,为了维护可靠性,ResourceManage原创 2020-12-12 23:04:26 · 4088 阅读 · 11 评论 -
删了HDFS又能怎样?记一次删库不跑路事件
一、事发背景二、应急措施直观的方案三、分析过程hdfs文件删除过程BlockManagerEditLoghdfs元数据的加载方案确定四、灾难重演五、经验总结一、事发背景 上个月的某一天,由于集群空间不足,公司有一位技术经理级别的大数据leader在通过跳板机在某个线上集群执行手动清理命令,疯狂地执行hadoop fs -rmr -skipTrash /user/hive/warehouse/xxxxx,突然,不知道是编辑器的问题还是换行问题,命令被截断,命令变成了``hadoop fs.原创 2020-08-13 18:43:54 · 2727 阅读 · 9 评论 -
Ambari2.7+HDP3.X集成Dolphinscheduler1.3
一、安装准备二、环境准备1.新建数据库2.java环境准备三、ambari集成1.软件包准备2.修改文件3.正式安装一、安装准备Dolphinscheduler1.3安装包,详情可参考 dolphinscheduler在window环境下单机编译+部署 中生成的的tar包,由于官网未正式release,为大家方便,这里提供已编译好的tar包,链接:https://pan.baidu.com/s/18ILymCAnYnhcIpgbGUAENQ 提取码:vvtwmysql jdbc驱动包:mysql.原创 2020-06-27 18:00:30 · 5584 阅读 · 9 评论 -
dolphinscheduler在window环境下单机编译+部署
为了完整演示整个流程,从0开始,排除其它一切干扰,本人特意找了台新的windows环境,全程无需IDE的参与操作一、版本信息:dolphinscheduler:1.3.0maven:3.6.3jdk:1.8二、编译注意事项:1.无需下载node.js,执行下面的maven打包会自动下载,node.js版本不对编译会有问题2.window下编译完后tar包的解压一定不要用国产解压软件,否则会有下图的惨状,推荐压缩软Bandizip``[外链图片转存失败,源站可能有防原创 2020-06-16 21:58:08 · 7772 阅读 · 9 评论 -
kafka如何保证数据可靠性
一、必须知道的专业名词kafka中,每个partition可以有多个副本(Replica),分为leader、follower,正常情况下,客户端只向leader发送数据、leader消费数据,follower的出现是为了保证kafka数据的高可用和一致性,也是作为灾备的存在。再保证高可用的过程中,leader与follower进行数据同步时,产生的如下一些专业术语,都是基于partition之内的概念。为了方便理解,假设以下所有的描述,都是基于某个只有一个partition,partition里面有3个原创 2020-05-26 10:17:31 · 2308 阅读 · 0 评论 -
异构数据源导redis不用找了!DataX二次开发插件rediswriter已上菜
rediswriter代码地址: https://github.com/lijufeng2016/DataX-redis-writer合并后DataX完整代码地址: https://github.com/lijufeng2016/DataX一、DataX介绍DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRD原创 2020-05-22 13:24:51 · 6751 阅读 · 13 评论 -
提交spark yarn-cluster与yarn-client模式的致命区别
一、组件版本二、提交方式三、运行原理四、分析过程五、致命区别六、总结一、组件版本调度系统:DolphinScheduler1.2.1spark版本:2.3.2二、提交方式spark在submit脚本里提交job的时候,经常会有这样的警告 Warning: Master yarn-cluster is deprecated since 2.0. Please use master "yarn" with specified deploy mode instead.这是因为你用了yarn-cl.原创 2020-05-15 19:28:15 · 3655 阅读 · 0 评论 -
hive中文汉字乱码终极解决办法
一、问题在创建hive表时,comment要加中文注释,比如:drop table if exists users;create table users(name string comment '姓名',age int comment '年龄');执行后再show create table users;二、别人的解决方法中国文化博大精深,无奈没有成为世界统一标准,根据一般人的经验,脑中一定是utf8哪个地方没设置好的问题,经过一番百度,找到 如下解决方法,在hive的mysql元数据库原创 2020-05-15 12:16:10 · 8372 阅读 · 4 评论 -
自动化HDFS数据清理的终极方法(附代码)
一、背景二、原理fsimage:hive元数据三、使用方法本地idea运行:step1:准备工作step2:解析fsimage文件step3:清理数据yarn运行:step1:准备工作step2:解析fsimage文件step3:清理数据四、总结代码地址:https://github.com/lijufeng2016/data-manager一、背景hdfs集群从出生到成长,经历了各种各样...原创 2020-04-24 22:28:01 · 5051 阅读 · 0 评论 -
zookeeper在大数据生态的应用
一、简述二、基本概念1.数据结构2.Znode你应该了解的(1)节点类型(2)节点属性三、基本功能1.文件系统2.集群管理(1) 节点的加入和退出(2) Master的选举3.分布式锁机制(1) 排他锁(2) 共享锁4.监听与通知机制四、实际应用1.hadoop2.hbase3.kafka4.hive五、总结一、简述 在一群动物掌管的世界中,动物没有人类聪明的思想,为了保持...原创 2020-04-05 22:08:15 · 1128 阅读 · 0 评论 -
亿万级海量数据去重软方法,spark/hive/flink/mr通用
一、场景描述:二、常用方法1.优化sql2.借助第三方存储3.bitmap三、原理分析二、案例实战三、总结一、场景描述: 小强作为一名数据工程师,给予hadoop生态,经常会接到类似uv的去重统计。对于这种需求,一般的数据工程师撸起袖子直接干!一般情况下不会有问题。某一天,你公司突然业务发展发展起来,数据量慢慢暴涨,你会突然发现之前的count distinct去重经常oom或是...原创 2020-03-31 21:10:24 · 4082 阅读 · 1 评论 -
Unable to close file because the last block does not have enough number of replicas报错分析
一、问题跑spark或hive脚本报错如下:[INFO] 2020-03-31 11:06:03 -> java.io.IOException: Unable to close file because the last block does not have enough number of replicas. at org.apache.hadoop.hdfs.DFSOutpu...原创 2020-03-31 15:06:39 · 13626 阅读 · 6 评论 -
orc表导致hiveserver2内存暴涨问题分析
orc表导致hiveserver2内存暴涨问题分析这里写目录标题orc表导致hiveserver2内存暴涨问题分析一、问题描述二、解决过程1.定位起因2.分析sql3.深入分析三、orc文件格式四、问题验证五、解决方案六、总结分析一、问题描述昨天上午,钉钉上突然出现一堆hive相关的查询错误的报警。第一感觉,在yarn上查看任务日志,查询了一通,结果没看到有任务相关的报错。于是乎,立马查看h...原创 2020-03-27 21:07:19 · 3208 阅读 · 0 评论 -
ambari2.7.4集成hue4.6.0
版本信息Ambari:2.7.4HDP:3.1.4HUE:4.6.0环境准备1.hue的master节点上执行,为编译环境做准备yum install sqlite-devel libxslt-devel.x86_64 python-devel openldap-devel asciidoc cyrus-sasl-gssapi libxml2-devel.x86_64 mysql-...原创 2020-03-09 18:09:07 · 3897 阅读 · 14 评论 -
ambari2.6安装alluxio2.1.0
ambari2.6安装alluxio2.1.0准备的文件:alluxio-2.1.0-bin.tar.gz (自己去下载)ranger-hive-plugin-0.7.0.2.6.5.0-292.jar (如果没有ranger控制权限,涉及的下面相关操作可忽略)ambari-alluxio-service-master.zip链接:https://pan.baidu.com/s/1f_C...原创 2019-11-11 17:26:44 · 1011 阅读 · 7 评论