大数据翻身-CSDN博客

原创 data engineer

ResponsibilitiesDutiesSkills and QualificationsEducation and experience

2024-03-12 12:11:18 913

原创 Pyspark读写csv,txt,json,xlsx,xml,avro等文件

Spark读写txt文件 Spark读写csv文件 Spark读写parquet文件 Spark读写json文件 Spark读写excel文件 Spark读写xml文件 Spark读写orc文件 Spark读写avro文件 Spark读写mysql中的表

2023-09-27 16:37:50 2513 1

spark dataframe时间戳和日期之间的转换import org.apache.spark.sql.functions._日期格式转换为时间戳：val Facedf = Facedf1.withColumn("time_unix",unix_timestamp(col("time"),"yyyy-MM-dd HH:mm:ss"))时间戳格式转换为日期：val Facedf = Facedf1.withColumn("time_date",from_unixtime(col("

2022-05-24 15:19:15 2809

原创 SparkSQL DataFrame数据类型转换

DataFrame数据类型转换import org.apache.spark.sql.types.{StructType,StructField,StringType, IntegerType, LongType}import java.util.ArrayListimport org.apache.spark.sql._val dataList = new util.ArrayList[Row]()dataList.add(Row("ming",20,15552211521L))data

2022-05-24 15:14:35 2162

原创 Flink 流处理 API

流处理：1. Environment1.1 getExecutionEnvironment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境，也就是说，getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境，是最常用的一种创建执行环境的方式。（1）val env: ExecutionEnvironment = Exec...

2022-03-28 09:00:00 171

原创修改Azkaban的默认端口

Azkaban的默认端口为8081，但当我们安装了spark或flink后，发现端口被占用，不得不修改端口，这里我修改为8083（确保端口没被占用）。主要修改参数为：jetty.port=8083 azkaban.webserver.url=http://192.168.77.201:8083修改Executor-Server，端口为8083上传文件到Linux上的/opt/moudus/ 解压 tar zxvf azkaban-exec-server-3.81.0-1-g304593d.

2022-03-24 09:00:00 1537

原创 User xml file conf/azkaban-users.xml doesn‘t exist.

启动Azkabn服务时发现启动不起来，于是去查看日志，发现Caused by: java.lang.IllegalArgumentException: User xml file conf/azkaban-users.xml doesn't exist.具体如下：2022/03/19 10:49:27.741 +0800 ERROR [StdOutErrRedirect] [Azkaban] Caused by: java.lang.IllegalArgumentException: Use

2022-03-23 09:00:00 798 2

原创 Flink修改默认端口

当你部署了Spark或Azkaban等应用，启动flink时发现默认端口8081被占用，于是得去更改默认端口。方法如下：修改配置文件conf里面的flink-conf.yaml和masters。vim flink-conf.yaml修改或添加（注意:后有一个空格，否则无法生效）：rest.port: 8082同时将masters里面的端口也修改为8082vim mastershadoop01:8082hadoop02:8082并将flink-conf.yaml和ma.

2022-03-22 09:00:00 7345

原创 Flink Standalone模式HA部署

Standalone Cluster HA前面我们配置的 Standalone 集群实际上只有一个 JobManager，此时是存在单点故障的，所以官方提供了 Standalone Cluster HA 模式来实现集群高可用。1. 前置条件在 Standalone Cluster HA 模式下，集群可以由多个 JobManager，但只有一个处于 active 状态，其余的则处于备用状态，Flink 使用 ZooKeeper 来选举出 Active JobManager，并依赖其来提供一致性协调

2022-03-20 09:00:00 1188

原创 Flink Standalone 集群部署

Flink 支持使用多种部署模式来满足不同规模应用的需求，常见的有单机模式，Standalone Cluster 模式，同时 Flink 也支持部署在其他第三方平台上，如 YARN，Mesos，Docker，Kubernetes 等。以下主要介绍其Standalone Cluster 模式的部署。 Standalone Cluster 模式是 Flink 自带的一种集群模式，具体配置步骤如下：安装部署1. 前置条件使用该模式前，需要确保所有服务器间都已经配置好 SSH 免密登录服务。这..

2022-03-19 09:00:00 1269

原创 Flink部署后启动不成功错误

案例：Flink1.12.4启动Flink[hadoop@hadoop01 ~]$ bin/start-cluster.sh[hadoop@hadoop01 ~]$ call-cluster.sh jps--------hadoop01--------10369 QuorumPeerMain11297 NodeManager12241 TaskManagerRunner10885 JournalNode10551 NameNode12599 Jps12538 HistoryS

2022-03-18 15:28:27 8266 3

原创 Flink 单机部署

Flink 支持使用多种部署模式来满足不同规模应用的需求，常见的有单机模式，Standalone Cluster 模式，同时 Flink 也支持部署在其他第三方平台上，如 YARN，Mesos，Docker，Kubernetes 等。以下主要介绍其单机模式。单机模式是一种开箱即用的模式，可以在单台服务器上运行，适用于日常的开发和调试。具体操作步骤如下：安装部署1. 前置条件Flink 的运行依赖 JAVA 环境，故需要预先安装好 JDK。2. 下载 & 解压 &a...

2022-03-18 09:00:00 4048

原创 flink编译报错：could not find implicit value for evidence parameter of type org.apache.flink.api.common..

错误描述：could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation[String]Error:(17, 15) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformat

2022-03-04 18:07:03 4790

原创 spark中的cache()、persist()和checkpoint()的区别

首先，这三者都是做RDD持久化的，cache()和persist()是将数据缓存在内存中，checkpoint()是将数据做物理存储的（本地磁盘或Hdfs上）。其次，缓存机制里的cache和persist都是用于将一个RDD进行缓存，区别就是：cache()是persisit()的一种简化方式，cache()的底层就是调用的persist()的无参版本，同时就是调用persist(MEMORY_ONLY)将数据持久化到内存中。如果需要从内存中清除缓存，那么可以使用unpersist()方法。...

2022-03-03 15:25:04 6997 2

原创大数据技术栈思维导图

2022-02-23 12:23:17 1474

原创 Linux下Python安装

系统环境：centos 7.6Python 版本：Python-3.6.81. 环境依赖Python3.x 的安装需要依赖这四个组件：gcc， zlib，zlib-devel，openssl-devel；所以需要预先安装，命令如下：yum install gcc -y yum install zlib -y yum install zlib-devel -y yum install openssl-devel -y2. 下载编译Python 源码包下载地址： http.

2022-01-20 15:44:16 204

原创 ElasticSearch常用http请求

1.端口说明 es启动监听两个端口，9300和9200 9300端口： ES节点之间通讯使用 9200端口： ES节点和外部通讯使用 9300是tcp通讯端口，集群间和TCPClient都走的它；9200是http协议的RESTful接口2.http请求示例（es集群配置方面）查看集群状态 curl -X GET “http://127.0.0.1:9200/_cat/health?v” 查询节点的列表 curl -X GET “http://...

2021-12-15 11:13:32 727

原创 IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter，语句完成“！”，否定完成，输入表达式时按 “！”键Ctrl+E，最近的文件Ctrl+Shift+E，最近更改的文件Shift+Click，可以关闭文件Ctrl+[ OR ]，可以跑到大括号的开头与结尾Ctrl+F12，可以显示当前文件的结构Ctrl+F7，可以查询当前元素在当前文件中的引用，然后按 F3 可以选择Ctrl+N，可以快速打开类Ctrl+Shift+N，可以快速打开文件Alt+Q，可以看到当前方法的声明Ctrl+P，可以显示参数信息C

2021-12-13 17:38:34 136

原创 spark广播变量

使用广播变量来优化，广播变量的原理是：在每一个Executor中保存一份全局变量，task在执行的时候需要使用和这一份变量就可以，极大的减少了Executor的内存开销。Executor中task在执行的时候如果使用到了广播变量，会找Executor里面的BlockManager来获取广播变量。如果BlockManager中没有这个关闭变量，会从driver端拉取关闭变量。在Driver端也有一个blockManagerMaster，其他的task执行的时候直接使用blockmanager中

2021-12-06 16:13:40 1596

原创大数据技术之 Spark 优化

第 1 章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一：最优资源配置 Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交 Spark 任务时进行指定，标准的 Spark 任务提交脚本如下所示： bin/spark-submit \--class com.atguigu.sp...

2021-11-24 18:34:52 847

原创大数据技术之Spark内核

第 1 章 Spark 内核概述 Spark 内核泛指 Spark 的核心运行机制，包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等，熟练掌握 Spark 内核原理，能够帮助我们更好地完成 Spark 代码设计，并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。 1.1 Spark 核心组件回顾 1.1.1 Driver Spark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际..

2021-11-17 16:33:42 965

原创大数据技术之SparkStreaming

第1章 SparkStreaming 概述 1.1 Spark Streaming 是什么 Spark 流使得构建可扩展的容错流应用程序变得更加容易。 Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HD...

2021-11-17 15:32:01 634

原创大数据技术之SparkSql

第1章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL

2021-11-16 16:37:53 1544

原创大数据技术之SparkCore

第1章 Spark 概述 1.1 Spark 是什么 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 1.2 Spark and Hadoop

2021-11-16 16:31:37 478

原创 spark之使用dataframe解决spark TopN问题：分组、排序、取TopN和join相关问题

package com.profile.mainimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._import org.apache.log4j.{Level, Logger}import com.profile.tools.{DateTools, JdbcTools, LogTools, SparkTools}import com.dhd.comment.Consta.

2021-11-04 17:51:09 1763

原创 Spark案例之WordCount

创建 Maven 项目增加 Scala 插件 Spark 由 Scala 语言开发的，所以本课件接下来的开发所使用的语言也为 Scala，咱们当前使用的 Spark 版本为 3.0.0，默认采用的 Scala 编译版本为 2.12，所以后续开发时。我们依然采用这个版本。开发前请保证 IDEA 开发工具中含有 Scala 开发插件增加依赖关系修改 Maven 项目中的 POM 文件，增加 Spark 框架的依赖关系。本次基于 Spark3.0 版本，使用时请注意对应版

2021-10-13 18:14:39 6906

原创 Spark案例

Spark官网的案例简单示例：Examples | Apache Spark更多的例子:Basic Spark:Scala examples,Java examples,Python examples Spark Streaming:Scala examples,Java examples

2021-09-22 16:31:42 217

原创 Spark Streaming

Spark Streaming 简介Spark Streaming与流处理一、流处理1.1 静态数据处理在流处理之前，数据通常存储在数据库，文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储，采用 MapReduce 进行数据查询或分析，这就是典型的静态数据处理架构。...

2021-09-22 15:28:06 116

原创 Spark SQL

DataFrame和Dataset简介一、Spark SQL简介Spark SQL 是 Spark 中的一个子模块，主要用于操作结构化数据。它具有以下特点：能够将 SQL 查询与 Spark 程序无缝混合，允许您使用 SQL 或 DataFrame API 对结构化数据进行查询；支持多种开发语言；支持多达上百种的外部数据源，包括 Hive，Avro，Parquet，ORC，JSON 和 JDBC 等；支持 HiveQL 语法以及 Hive SerDes 和 UDF，允许你访问现有的

2021-09-22 15:25:30 1027

原创 Spark Core

Spark开发环境搭建安装Spark下载并解压官方下载地址：Downloads | Apache Spark ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包： # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz

2021-09-22 15:23:10 1134

原创 Spark简介

简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab，2013 年被捐赠给 Apache 软件基金会，2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算，Spark 可以带来上百倍的性能提升，因此它成为继 MapReduce 之后，最为广泛使用的分布式计算框架。...

2021-09-22 15:20:44 559

原创 spark读写clickhouse

官网文档：https://clickhouse.tech/docs/zh/spark读取clickhouse数据一：这种jdbc的连接加载的是全量表数据val prop = new java.util.Propertiesprop.setProperty("user", "default")prop.setProperty("password", "123456")prop.setProperty("driver", "ru.yandex.clickhouse.ClickHouseDr

2021-09-21 16:04:25 14433 2

原创 ClickHouse的副本

clickhouse副本链接：https://clickhouse.tech/docs/en/engines/table-engines/mergetree-family/replication/ 副本的目的主要是保障数据的高可用性，即使一台 ClickHouse 节点宕机，那么也可以从其他服务器获得相同的数据。副本写入流程配置https://clickhouse.com/docs/zh/engines/table-engines/mergetree-fami...

2021-09-21 15:20:51 378

原创 ClickHouse的SQL 操作

基本上来说传统关系型数据库（以 MySQL 为例）的 SQL 语句，ClickHouse 基本都支持，这里不会从头讲解 SQL 语法只介绍 ClickHouse 与标准 SQL（MySQL）不一致的地方。 Insert 基本与标准 SQL（MySQL）基本一致（1）标准 insert into [table_name] values(…),(….)（2）从表到表的插入 insert into [table_name] select a,b,c from [...

2021-09-21 15:09:02 456

原创 ClickHouse的表引擎

表引擎的使用表引擎是 ClickHouse 的一大特色。可以说，表引擎决定了如何存储表的数据。包括：数据的存储方式和位置，写到哪里以及从哪里读取数据。支持哪些查询以及如何支持。并发数据访问。索引的使用（如果存在）。是否可以执行多线程请求。数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎，以及引擎使用的相关参数。特别注意：引擎的名称大小写敏感TinyLog以列文件的形式保存在磁盘上，不支持索引，没有并发控制。一般保存少量数据的

2021-09-21 11:54:56 402

原创 ClickHouse的数据类型

1.整型固定长度的整型，包括有符号整型或无符号整型。整型范围（-2n-1~2n-1-1）： Int8 - [-128 : 127] Int16 - [-32768 : 32767] Int32 - [-2147483648 : 2147483647] Int64 - [-9223372036854775808 : 9223372036854775807] 无符号整型范围（0~2n-1）： UInt8 - [0 : 255] UInt16 - [0 : 65535] .

2021-09-17 18:55:51 435

原创 ClickHouse 的安装

准备工作1. 确定防火墙处于关闭状态2. CentOS 取消打开文件数限制（1）在 hadoop102 的 /etc/security/limits.conf 文件的末尾加入以下内容 [muzili@hadoop102 ~]$ sudo vim /etc/security/limits.conf* soft nofile 65536* hard nofile 65536* soft nproc 131072* hard nproc 131072（2）在 hadoop10

2021-09-17 17:46:55 186

空空如也

空空如也