- 博客(121)
- 收藏
- 关注
原创 data engineer
ResponsibilitiesDutiesSkills and QualificationsEducation and experience
2024-03-12 12:11:18 836
原创 Pyspark读写csv,txt,json,xlsx,xml,avro等文件
Spark读写txt文件 Spark读写csv文件 Spark读写parquet文件 Spark读写json文件 Spark读写excel文件 Spark读写xml文件 Spark读写orc文件 Spark读写avro文件 Spark读写mysql中的表
2023-09-27 16:37:50 2323
原创 spark dataframe时间戳和日期之间的转换
spark dataframe时间戳和日期之间的转换import org.apache.spark.sql.functions._日期格式转换为时间戳:val Facedf = Facedf1.withColumn("time_unix",unix_timestamp(col("time"),"yyyy-MM-dd HH:mm:ss"))时间戳格式转换为日期:val Facedf = Facedf1.withColumn("time_date",from_unixtime(col("
2022-05-24 15:19:15 2694
原创 SparkSQL DataFrame数据类型转换
DataFrame数据类型转换import org.apache.spark.sql.types.{StructType,StructField,StringType, IntegerType, LongType}import java.util.ArrayListimport org.apache.spark.sql._val dataList = new util.ArrayList[Row]()dataList.add(Row("ming",20,15552211521L))data
2022-05-24 15:14:35 2059
原创 Flink 流处理 API
流处理:1. Environment1.1 getExecutionEnvironment 创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端调用程序以提交到集群,则此方法返回此集群的执行环境,也就是说,getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的方式。(1)val env: ExecutionEnvironment = Exec...
2022-03-28 09:00:00 152
原创 修改Azkaban的默认端口
Azkaban的默认端口为8081,但当我们安装了spark或flink后,发现端口被占用,不得不修改端口,这里我修改为8083(确保端口没被占用)。主要修改参数为:jetty.port=8083 azkaban.webserver.url=http://192.168.77.201:8083修改Executor-Server,端口为8083上传文件到Linux上的/opt/moudus/ 解压 tar zxvf azkaban-exec-server-3.81.0-1-g304593d.
2022-03-24 09:00:00 1426
原创 User xml file conf/azkaban-users.xml doesn‘t exist.
启动Azkabn服务时发现启动不起来,于是去查看日志,发现Caused by: java.lang.IllegalArgumentException: User xml file conf/azkaban-users.xml doesn't exist.具体如下:2022/03/19 10:49:27.741 +0800 ERROR [StdOutErrRedirect] [Azkaban] Caused by: java.lang.IllegalArgumentException: Use
2022-03-23 09:00:00 743 1
原创 Flink修改默认端口
当你部署了Spark或Azkaban等应用,启动flink时发现默认端口8081被占用,于是得去更改默认端口。方法如下:修改配置文件conf里面的flink-conf.yaml和masters。vim flink-conf.yaml修改或添加(注意:后有一个空格,否则无法生效):rest.port: 8082同时将masters里面的端口也修改为8082vim mastershadoop01:8082hadoop02:8082并将flink-conf.yaml和ma.
2022-03-22 09:00:00 6979
原创 Flink Standalone模式HA部署
Standalone Cluster HA前面我们配置的 Standalone 集群实际上只有一个 JobManager,此时是存在单点故障的,所以官方提供了 Standalone Cluster HA 模式来实现集群高可用。1. 前置条件在 Standalone Cluster HA 模式下,集群可以由多个 JobManager,但只有一个处于 active 状态,其余的则处于备用状态,Flink 使用 ZooKeeper 来选举出 Active JobManager,并依赖其来提供一致性协调
2022-03-20 09:00:00 1119
原创 Flink Standalone 集群部署
Flink 支持使用多种部署模式来满足不同规模应用的需求,常见的有单机模式,Standalone Cluster 模式,同时 Flink 也支持部署在其他第三方平台上,如 YARN,Mesos,Docker,Kubernetes 等。以下主要介绍其Standalone Cluster 模式的部署。 Standalone Cluster 模式是 Flink 自带的一种集群模式,具体配置步骤如下:安装部署1. 前置条件使用该模式前,需要确保所有服务器间都已经配置好 SSH 免密登录服务。这..
2022-03-19 09:00:00 1230
原创 Flink部署后启动不成功错误
案例:Flink1.12.4启动Flink[hadoop@hadoop01 ~]$ bin/start-cluster.sh[hadoop@hadoop01 ~]$ call-cluster.sh jps--------hadoop01--------10369 QuorumPeerMain11297 NodeManager12241 TaskManagerRunner10885 JournalNode10551 NameNode12599 Jps12538 HistoryS
2022-03-18 15:28:27 8082 3
原创 Flink 单机部署
Flink 支持使用多种部署模式来满足不同规模应用的需求,常见的有单机模式,Standalone Cluster 模式,同时 Flink 也支持部署在其他第三方平台上,如 YARN,Mesos,Docker,Kubernetes 等。以下主要介绍其单机模式。 单机模式是一种开箱即用的模式,可以在单台服务器上运行,适用于日常的开发和调试。具体操作步骤如下:安装部署1. 前置条件Flink 的运行依赖 JAVA 环境,故需要预先安装好 JDK。2. 下载 & 解压 &a...
2022-03-18 09:00:00 3866
原创 flink编译报错:could not find implicit value for evidence parameter of type org.apache.flink.api.common..
错误描述:could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation[String]Error:(17, 15) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformat
2022-03-04 18:07:03 4740
原创 spark中的cache()、persist()和checkpoint()的区别
首先,这三者都是做RDD持久化的,cache()和persist()是将数据缓存在内存中,checkpoint()是将数据做物理存储的(本地磁盘或Hdfs上)。 其次,缓存机制里的cache和persist都是用于将一个RDD进行缓存,区别就是:cache()是persisit()的一种简化方式,cache()的底层就是调用的persist()的无参版本,同时就是调用persist(MEMORY_ONLY)将数据持久化到内存中。如果需要从内存中清除缓存,那么可以使用unpersist()方法。...
2022-03-03 15:25:04 6639 2
原创 Linux下Python安装
系统环境:centos 7.6Python 版本:Python-3.6.81. 环境依赖Python3.x 的安装需要依赖这四个组件:gcc, zlib,zlib-devel,openssl-devel;所以需要预先安装,命令如下:yum install gcc -y yum install zlib -y yum install zlib-devel -y yum install openssl-devel -y2. 下载编译Python 源码包下载地址: http.
2022-01-20 15:44:16 183
原创 ElasticSearch常用http请求
1.端口说明 es启动监听两个端口,9300和9200 9300端口: ES节点之间通讯使用 9200端口: ES节点 和 外部 通讯使用 9300是tcp通讯端口,集群间和TCPClient都走的它;9200是http协议的RESTful接口2.http请求示例(es集群配置方面) 查看集群状态 curl -X GET “http://127.0.0.1:9200/_cat/health?v” 查询节点的列表 curl -X GET “http://...
2021-12-15 11:13:32 678
原创 IntelliJ Idea 常用快捷键列表
Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N,可以快速打开类Ctrl+Shift+N,可以快速打开文件Alt+Q,可以看到当前方法的声明Ctrl+P,可以显示参数信息C
2021-12-13 17:38:34 123
原创 spark广播变量
使用广播变量来优化,广播变量的原理是:在每一个Executor中保存一份全局变量,task在执行的时候需要使用和这一份变量就可以,极大的减少了Executor的内存开销。Executor中task在执行的时候如果使用到了广播变量,会找Executor里面的BlockManager来获取广播变量。如果BlockManager中没有这个关闭变量,会从driver端拉取关闭变量。在Driver端也有一个blockManagerMaster,其他的task执行的时候直接使用blockmanager中
2021-12-06 16:13:40 1570
原创 大数据技术之 Spark 优化
第 1 章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使用脚本提交 Spark 任务时进行指定,标准的 Spark 任务提交脚本如下所示: bin/spark-submit \--class com.atguigu.sp...
2021-11-24 18:34:52 824
原创 大数据技术之Spark内核
第 1 章 Spark 内核概述 Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等,熟练掌握 Spark 内核原理,能够帮助我们更好地完成 Spark 代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。 1.1 Spark 核心组件回顾 1.1.1 Driver Spark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际..
2021-11-17 16:33:42 938
原创 大数据技术之SparkStreaming
第1章 SparkStreaming 概述 1.1 Spark Streaming 是什么 Spark 流使得构建可扩展的容错流应用程序变得更加容易。 Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HD...
2021-11-17 15:32:01 620
原创 大数据技术之SparkSql
第1章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL
2021-11-16 16:37:53 1521
原创 大数据技术之SparkCore
第1章 Spark 概述 1.1 Spark 是什么 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 1.2 Spark and Hadoop
2021-11-16 16:31:37 463
原创 spark之使用dataframe解决spark TopN问题:分组、排序、取TopN和join相关问题
package com.profile.mainimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._import org.apache.log4j.{Level, Logger}import com.profile.tools.{DateTools, JdbcTools, LogTools, SparkTools}import com.dhd.comment.Consta.
2021-11-04 17:51:09 1707
原创 Spark案例之WordCount
创建 Maven 项目增加 Scala 插件 Spark 由 Scala 语言开发的,所以本课件接下来的开发所使用的语言也为 Scala,咱们当 前使用的 Spark 版本为 3.0.0,默认采用的 Scala 编译版本为 2.12,所以后续开发时。我们依 然采用这个版本。开发前请保证 IDEA 开发工具中含有 Scala 开发插件增加依赖关系 修改 Maven 项目中的 POM 文件,增加 Spark 框架的依赖关系。本次基于 Spark3.0 版 本,使用时请注意对应版
2021-10-13 18:14:39 6864
原创 Spark案例
Spark官网的案例简单示例:Examples | Apache Spark更多的例子:Basic Spark:Scala examples,Java examples,Python examples Spark Streaming:Scala examples,Java examples
2021-09-22 16:31:42 190
原创 Spark Streaming
Spark Streaming 简介Spark Streaming与流处理一、流处理1.1 静态数据处理在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。...
2021-09-22 15:28:06 102
原创 Spark SQL
DataFrame和Dataset简介一、Spark SQL简介Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点:能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 DataFrame API 对结构化数据进行查询; 支持多种开发语言; 支持多达上百种的外部数据源,包括 Hive,Avro,Parquet,ORC,JSON 和 JDBC 等; 支持 HiveQL 语法以及 Hive SerDes 和 UDF,允许你访问现有的
2021-09-22 15:25:30 943
原创 Spark Core
Spark开发环境搭建安装Spark下载并解压官方下载地址:Downloads | Apache Spark ,选择 Spark 版本和对应的 Hadoop 版本后再下载:解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
2021-09-22 15:23:10 1039
原创 Spark简介
简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最为广泛使用的分布式计算框架。...
2021-09-22 15:20:44 534
原创 spark读写clickhouse
官网文档:https://clickhouse.tech/docs/zh/spark读取clickhouse数据一:这种jdbc的连接加载的是全量表数据val prop = new java.util.Propertiesprop.setProperty("user", "default")prop.setProperty("password", "123456")prop.setProperty("driver", "ru.yandex.clickhouse.ClickHouseDr
2021-09-21 16:04:25 14174 2
原创 ClickHouse的副本
clickhouse副本链接:https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replication/ 副本的目的主要是保障数据的高可用性,即使一台 ClickHouse 节点宕机,那么也可以从 其他服务器获得相同的数据。 副本写入流程 配置https://clickhouse.com/docs/zh/engines/table-engines/mergetree-fami...
2021-09-21 15:20:51 357
原创 ClickHouse的SQL 操作
基本上来说传统关系型数据库(以 MySQL 为例)的 SQL 语句,ClickHouse 基本都支持,这里不会从头讲解 SQL 语法只介绍 ClickHouse 与标准 SQL(MySQL)不一致的地方。 Insert 基本与标准 SQL(MySQL)基本一致 (1)标准 insert into [table_name] values(…),(….)(2)从表到表的插入 insert into [table_name] select a,b,c from [...
2021-09-21 15:09:02 425
原创 ClickHouse的表引擎
表引擎的使用表引擎是 ClickHouse 的一大特色。可以说, 表引擎决定了如何存储表的数据。包括: 数据的存储方式和位置,写到哪里以及从哪里读取数据。 支持哪些查询以及如何支持。 并发数据访问。 索引的使用(如果存在)。 是否可以执行多线程请求。 数据复制参数。 表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎,以及引擎使用的相关参数。 特别注意:引擎的名称大小写敏感TinyLog以列文件的形式保存在磁盘上,不支持索引,没有并发控制。一般保存少量数据的
2021-09-21 11:54:56 383
原创 ClickHouse的数据类型
1.整型固定长度的整型,包括有符号整型或无符号整型。 整型范围(-2n-1~2n-1-1): Int8 - [-128 : 127] Int16 - [-32768 : 32767] Int32 - [-2147483648 : 2147483647] Int64 - [-9223372036854775808 : 9223372036854775807] 无符号整型范围(0~2n-1): UInt8 - [0 : 255] UInt16 - [0 : 65535] .
2021-09-17 18:55:51 394
原创 ClickHouse 的安装
准备工作1. 确定防火墙处于关闭状态2. CentOS 取消打开文件数限制 (1)在 hadoop102 的 /etc/security/limits.conf 文件的末尾加入以下内容 [muzili@hadoop102 ~]$ sudo vim /etc/security/limits.conf* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131072(2)在 hadoop10
2021-09-17 17:46:55 164
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人