2020年12月_西南偏北_

原创 Spark源码——Spark Task执行内存获取（Execution Memory）

文章目录

2020-12-20 22:42:35 861

原创 Spark——大数据生态组件（Spark、Flink、YARN等）WEB UI地址汇总

文章目录Spark Web UIFlink Web UIKafka MangerYARN应用Web UIElasticsearch-headCloudera MangerHue Web UIZeppelin NotebookSpark Web UIhttp://master-1:18089/Flink Web UIhttp://master-1:8081/Kafka Mangerhttp://master-1:9001/YARN应用Web UIhttp://master-1:8088/

2020-12-31 20:08:46 514

原创 Spark——Spark缓存临时视图（View）

文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和Dataset API开发Spark应用程序的时候，如果要缓存某个RDD或Dataset来进行复用，减少重复计算提升计算效率的时候，我们可以在RDD或Dataset上调用persist()方法并传入缓存级别参数进行缓存。val df: Dataset[Row] = ...df.persist(StorageLevel.MEMORY_AND_DISK)纯SQL结果缓存复用但是当我们以纯S

2020-12-31 19:10:02 2936

原创 Spark——Spark Project Tungsten深入解析

文章目录https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.htmlhttp://www.slideshare.net/SparkSummit/deep-dive-into-project-tungsten-josh-rosenhttps://medium.com/@goyalsaurabh66/project-tungsten-and-catalyst-sql-opti

2020-12-27 21:29:52 858

原创 Spark——Spark RDD、Dataset、DataFrame及区别

文章目录RDD1. 不可变性2. 分区性3. 并行操作4. RDD内部结构5. RDD宽依赖、窄依赖1. 窄依赖2. 宽依赖6. RDD的重用DatasetDataFrame参考RDDRDD（Resilient Distributed Dataset，弹性分布式数据集）是Spark中的基本抽象。RDD代表一种可并行操作的不可变的分区元素集合，它有3个特性：RDD是不可变的RDD是分区的RDD是可以并行操作的1. 不可变性RDD是不可变的，只能在其他的RDD上通过Transformation

2020-12-27 14:19:40 571

原创 Kafka——Kafka常用脚本命令

文章目录Kafka Server启动生产、消费消息1. 生产消息2. 消费消息主题管理创建topic删除主题查看所有主题查看主题信息修改主题分区修改主题参数分区重分配修改主题限速消费者信息查看消费者位移查看消费者组提交的位移数据查看消费者组的状态信息参考Kafka Server启动$ bin/kafka-server-start.sh config/server.properties生产、消费消息1. 生产消息$ bin/kafka-console-producer.sh --broker-li

2020-12-21 23:55:57 378

原创 Flink——Flink 时间（Time）、水印（Watermark）、窗口（Window）

aa

2020-12-20 13:21:08 944

原创 Flink——Flink读写MySQL

package flink.batch;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.flink.api.common.typeinfo

2020-12-13 22:04:17 453

原创 Linux——Linux常用命令（CPU、进程线程、端口、连接数）

文章目录查看版本查看CPU信息查看进程查看端口关闭进程关机/重启任务后台运行内存CPU消耗find查找命令文件/目录统计du命令连接数线程数crontab查看版本# 查看当前操作系统内核信息cat /etc/redhat-release或uname -a# 查看当前操作系统版本信息cat /proc/version# 查看Linux版本lsb_release -a查看CPU信息cat /proc/cpuinfo查看进程# 查看进程打开的文件lsof -p pid# 查看进

2020-12-13 21:40:32 843

原创 Spark——spark-submit提交应用程序的注意事项

文章目录配置加载优先级指定多个依赖jar包配置加载优先级我们知道Spark应用程序在提交的时候会加载多个地方的配置信息：通过配置文件conf/spark-defaults.conf...# Default system properties included when running spark-submit.# This is useful for setting default environmental settings.# Example:# spark.master

2020-12-12 18:01:16 209

原创 Spark——DataFrame/Hive表导出为Excel、CSV之逆向思维

文章目录Hive表数据/Spark DataFrame导出为ExcelHive表数据/Spark DataFrame导出为CSVHive表数据/Spark DataFrame导出为Excelprivate void checkLength(String value) { if(value.length() > getSpreadsheetVersion().getMaxTextLength()){ final String message = String.format(L

2020-12-10 22:36:40 1260

原创 Java——Java 时间秒数/毫秒数与标准日期时间的相互转换

文章目录row.getTimestamp(index).toLocalDateTime.format(DateTimeFormatter.ofPattern(“yyyy-MM-dd HH:mm:ss”))println(System.currentTimeMillis())println(LocalDateTime.now())println(new Timestamp(1507309800001L).toString)println(Instant.ofEpochMilli(1507309800

2020-12-07 20:30:44 6041

原创 Spark源码——Spark on YARN Executor执行Task的过程

文章目录入口点第一步：CoarseGrainedExecutorBackend main()和run()我们知道Spark中的Task是由Executor进程中执行的，那么Executor启动之后，具体是如何执行Task的呢？Executor执行Task的入口为object CoarseGrainedExecutorBackend。CoarseGrainedExecutorBackend是一个管理单个Executor的ExecutorBackend，它是在分配好的Container中其启动Executo

2020-12-06 17:33:04 645

aof