2019年07月_往事随风ing

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 [Spark 进阶] -- Spark 如何在运行时读取 --files 添加的 README.md 文件？

Spark 如何在运行时读取 --files 添加的 README.md 文件？方法 1本方法适用于 spark local 和 spark on yarn-client 。 --files 会把文件上传到 hdfs 的 .sparkStagin/applicationId 目录下，使用上面说的方法先获取到 hdfs 对应的这个目录，然后访问hdfs的这个文件，如下 spark....

2019-07-27 13:22:51 7292 1

原创 [生活杂感]-- 问问题的艺术

供参考，希望对各位有帮助！源文件访问https://www.processon.com/view/link/5d3a6d94e4b065dc42b2fd72密码：kAt4

2019-07-26 11:08:23 334

原创 [Hive 进阶]-- 7种可以提高 Hive 查询速度的方法

如何提高Hive 的查询性能？Apache Hive是一种强大的数据分析工具。在处理数PB的数据时，了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的，如有不足之处，望指出。1、使用Tez引擎Apache Tez Engine是一个可扩展的框架，用于构建高性能批处理和交互式数据处理。它由YARN在Hadoop中调度。Tez通过提高处理速度和保持MapRedu...

2019-07-17 11:26:36 20877 1

原创 [数据库基础]-- CBO and RBO optimizers

1、前言 CBO是 Cost-based optimizer ，RBO是 Rule-based optimizer 。2、对比 CBO RBO 定义基于成本的优化基于规则的优化目的为每个SQL语句提供最便宜的执行计划 RBO使用一组规则来确定如何执行查询支持 Spark sql、Hive、Presto、Mysq...

2019-07-13 11:40:45 960

翻译 [Flink 基础]-- 端到端的精准一次语义实现

感谢英文原文：https://flink.apache.org/features/2018/03/01/end-to-end-exactly-once-apache-flink.htmlApache Flink中的端到端精确一次处理概述（和Apache Kafka一样）2018年3月1日Piotr Nowojski（@PiotrNowojski）和Mike Winters（@wints）...

2019-07-13 11:11:21 3861