- 博客(5)
- 资源 (10)
- 收藏
- 关注
原创 [Spark 进阶] -- Spark 如何在运行时读取 --files 添加的 README.md 文件?
Spark 如何在运行时读取 --files 添加的 README.md 文件?方法 1本方法适用于 spark local 和 spark on yarn-client 。 --files 会把文件上传到 hdfs 的 .sparkStagin/applicationId 目录下,使用上面说的方法先获取到 hdfs 对应的这个目录,然后访问hdfs的这个文件,如下 spark....
2019-07-27 13:22:51 7292 1
原创 [生活杂感]-- 问问题的艺术
供参考,希望对各位有帮助!源文件访问https://www.processon.com/view/link/5d3a6d94e4b065dc42b2fd72密码:kAt4
2019-07-26 11:08:23 334
原创 [Hive 进阶]-- 7种可以提高 Hive 查询速度的方法
如何提高Hive 的查询性能?Apache Hive是一种强大的数据分析工具。在处理数PB的数据时,了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的,如有不足之处,望指出。1、使用Tez引擎Apache Tez Engine是一个可扩展的框架,用于构建高性能批处理和交互式数据处理。它由YARN在Hadoop中 调度。Tez通过提高处理速度和保持MapRedu...
2019-07-17 11:26:36 20877 1
原创 [数据库基础]-- CBO and RBO optimizers
1、前言 CBO是 Cost-based optimizer ,RBO是 Rule-based optimizer 。2、对比 CBO RBO 定义 基于成本的优化 基于规则的优化 目的 为每个SQL语句提供最便宜的执行计划 RBO使用一组规则来确定如何执行查询 支持 Spark sql、Hive、Presto、Mysq...
2019-07-13 11:40:45 960
翻译 [Flink 基础]-- 端到端的精准一次语义实现
感谢英文原文:https://flink.apache.org/features/2018/03/01/end-to-end-exactly-once-apache-flink.htmlApache Flink中的端到端精确一次处理概述(和Apache Kafka一样)2018年3月1日Piotr Nowojski(@PiotrNowojski)和Mike Winters(@wints)...
2019-07-13 11:11:21 3861
Canal开源产品介绍
2018-08-23
Scala Cookbook
2016-08-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人