天之破晓-CSDN博客

原创 Flint Join优化之Hint（优化器）

Flint Join优化之Hint（优化器）Flink目前主要有3种join ：join ：inner join，等值连接outerJoin ：外连接，分为left-outer join(左连接)、right-outer join(右连接)、full-outer join(全外连接)cross ：笛卡尔积Flink提供了优化器“hint”（提示）以告诉join函数优化器...

2019-03-29 18:21:57 982

hdp 2.6.2.14-ambari 2.5踩坑记官方文档 https://docs.hortonworks.com/HDPDocuments/Ambari-2.5.2.0/bk_ambari-installation/content/ch_Getting_Ready.html文章目录配置hosts设置SSH免密钥登录关闭防火墙关闭Selinux禁用Transparent保证系统语言是英文同...

2019-02-05 22:56:20 1139

原创 Centos7源码编译安装mysql5.7

Centos7源码编译安装mysql5.7文章目录1. 下载mysql 5.72. 安装编译需要的一些依赖3. 编译安装mysql3.1 生产编译环境3.2 编译mysql源码3.3 安装mysql4. 配置mysql4.1 编辑配置文件4.2 创建数据目录，赋予权限4.3 初始化数据库4.4 取消密码规则校验4.5 启动mysql4.6 修改密码4.7 开启局域网访问1. 下载mysql ...

2019-02-05 17:57:38 400

原创 Spark缓存级别

Spark缓存级别在spark中，如果一个rdd或者Dataset被多次复用，最好是对此做缓存操作，以避免程序多次进行重复的计算。Spark 的缓存具有容错机制，如果一个缓存的 RDD 的某个分区丢失了，Spark 将按照原来的计算过程，自动重新计算并进行缓存。缓存的使用： val dataset = spark.read.parquet(file) dataset.cache() 或者...

2019-02-04 12:07:52 2630

原创 ETL和ELT区别

ETL和ELT区别Extract / 提取：从datasource/txt/csv/Excel/等原始数据源中 Extract数据。Transform / 转换：将数据预处理，字段补全、类型检查、去除重复数据等，根据预定的条件将数据统一起来。Load / 装载：将转换完的数据存到数据仓库中。ETLExtract - Transform - Load提取 - 转换 ...

2019-02-04 11:48:55 6568