一叶知秋---CSDN博客

原创 SparkRDD+SparkSession进行数据清洗与数据分析并迁移至数据库中

SparkSQL+SparkRDD对中国保险汽车安全指数数据测试进行清洗与分析Spark SQL是构建在Spark RDD之上的一款ETL（Extract Transformation Load）工具，这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息（计算数据结构、转换算子），Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止，Spark SQL提供了两种风格的

2020-05-22 16:21:50 1081

原创 SparkSQL 使用UDF实现自定义函数

一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF：一进一出 UDAF：多进一出二、UDF函数这里实现自定义函数为截取字段：strSubpackage SparkSQLimport org.apache.spark.sql.types.{StringType, StructField, StructTy...

2019-07-11 10:58:04 1069

原创实例掌握Hadoop MapReduce

作者介绍杜亦舒，创业中，技术合伙人，喜欢研究分享技术。个人订阅号：性能与架构。本文旨在帮您快速了解 MapReduce 的工作机制和开发方法，解决以下几个问题： MapReduce 基本原理是什么？ MapReduce 的执行过程是怎么样的？ MapReduce 的核心流程细节如何进行 MapReduce 程序开发？（通过7个实例逐渐掌握）文章中...

2019-02-24 14:11:50 230

原创 Flume架构与应用

- Flume定义Flume是分布式，高可用，基于流式计算的，用于收集、聚合、移动大量日志数据的框架。- Flume模型 Source用于采集数据源的数据，然后封装成Event传输给Channel管道，期间也可以设置过滤器Chanel接受来自Source传输过来的Event数据Sink在Channel中拉取Event数据并将数输出，将数据写入存储设备上。Event：有可以...

2019-02-22 12:09:09 785

原创数据仓库Hive--总结（1）

在这近一个多月的学习之路上，又重新学习了一遍之前学习过的Hive，在这次回头重新学习的过程中，对Hive的使用和理解方面自然感觉比之前更加清晰。所以在学习的过程中，对之前学习内容的二次学习很有必要。第一部分：Hive简介（这里先不讲述Hive平台的部署以及Hive在执行中的流程，下次给大家阐述。这里主要讲解Hive的运用）•Hive是基于Hadoop的一个数据仓库工具，可以将...

2019-02-18 13:28:44 753

原创 Airflow调度程序开发

需求：外界传入参数，使得Airflow的调度程序将参数值带入至相关执行程序中执行。

2022-09-09 14:53:59 349

原创基于AES加密算法的Python解密窗体开发

什么是AES对称加密算法？具体工作步骤如下：1、发送使用密钥A，加密明文“AES加密算法”，加密结果为“gliVVW87tgdbT73QDBDW9Q==”2、发送方将加密结果发送至接收方。3、接收方收到密文“gliVVW87tgdbT73QDBDW9Q==”，利用密钥A进行解密得到明文“AES加密算法”。程序开发开发环境：Python 3.8依赖包：easygui、base64、Cryptodome.Cipher、re、csv、pandasimport easygui as

2022-04-12 15:19:44 748

原创 Clickhouse平台部署

说明：官方文档 :Installation | ClickHouse Docs1. 确定是否支持 SSE 4.2grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"2.Case A : 下载最新版。yum install yum-utils rpm --import https://repo.clickhouse.com/CLICKHO

2022-04-07 14:01:41 1413

原创 Spark之DataFrame与RDD之间的两种转换方式

说明：在SparkSQL中读外部数据进行读取进行ETL操作时，首先读取的数据格式为RDD数据结构，因此我们一项主要目标就是将读取到的RDD格式转化为DataFrame。RDD结构转化为DataFrame的形式主要分为两种：①反射②编程Row（StructType）package LogsAnalyseimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, St

2020-11-13 15:03:56 2009

原创 SparkSQL模块中DataFrame常用API操作

学习目标：对SparkSQL2.x模块中DataFrame的API操作进行整理。在工作中多个业务场景应用SparkSQL模块完成离线批处理操作，对海量历史数据处理和分析，分析结果数据，供下一步数据应用进行使用。并且在性能上解决了Hive方面的性能短板问题。在此记录下对SparkSQL模块中DataFrame的API常用操作。学习内容：1、掌握DataFrame中常用api操作，包含：①数据源读取与保存。②在DataFrame中ETL操作。2、流程：①应用spark对象完成声明操作ps.

2020-11-13 14:40:05 792

原创 NameNode的fsimage和editlog

Namenode主要维护两个文件，一个是 fsimage，一个是 editlog。fsimage保存了最新的元数据检查点，包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等；对于目录来说包括修改时间、访问权限控制信息(目录所属用户，所在组)等。editlog主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录，HDFS客户端执行所有的写操作都会被记录到editlog中。简单来想，NameNode维护了文件与数据块的映射表

2020-08-11 11:15:37 495

原创 SparkSQL 使用UDAF实现自定义聚合函数

一、介绍Spark SQL中自定义函数包括UDF和UDAF（先前已经发布一篇SparkSQL的UDF函数，现在为大家讲解一下UDAF自定义聚合函数）自定义函数 UDF：一进一出 UDAF：多进一出 √二、UDAF函数UDA：户自定义聚合函数，类似在group by之后使用的sum,avg等。首先创建class继承接口UserD...

2019-09-26 11:13:58 237

原创 SparkSQL 使用UDAF实现自定义聚合函数

一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF：一进一出 UDAF：多进一出 √二、UDAF函数UDAF：User Defined Aggregate Function。用户自定义聚合函数。是Spark 1.5.x引入的最新特性。 *UDF：其实更多的是针对单行输入，返回一个输出 * 这里的UDAF，则可...

2019-07-12 09:32:22 391

原创 Spark中实现分组取TopN（scala版）

在Spark中经常需要对数据进行分组操作，接下来对spark中分组取Top进行讲解，实际中也是根据业务的需求进行更丰富的操作。1、数据源准备（spark.txt）class1 90class2 56class1 87class1 76class2 88class1 95class1 74class2 87class2 67class2 772.实现过程pa...

2019-06-03 09:48:43 1477 2

原创 hive中的order by,sort by, distribute by, cluster by作用讲解

《这篇文章用来当做笔记，也是看别人博客时想记录来清洗分辨》1. order byHive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会...

2019-05-06 09:20:13 217

转载 Flume学习笔记及配置参数详解

一、什么是flumeFlume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。二、flume特点flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Ev...

2019-02-22 14:02:14 794

原创 Flume日志收集系统之拦截器-----（1）

Flume中的拦截器（Interceptor）介绍与使用Flume中的拦截器（interceptor），用户Source读取events发送到Sink的时候，在events header中加入一些有用的信息，或者对events的内容进行过滤，完成初步的数据清洗。Flume-ng 1.70中目前提供了以下拦截器：Timestamp Intercepto...

2019-02-19 14:49:49 689

原创 hadoop单机模式和伪分布模式的平台搭建

1.安装sshsudo apt-get install openssh-server安装后可以使用如下命令登录本机ssh localhost --会出现Are you sure wantto continue contecting(yes/no)?输入yes即可 2.对于ssh的理解ssh分为客户端和服务端一台计算机的时候输入的每条命令都是直接...

2018-06-04 14:55:08 498

原创 hadoop集群ssh集群免密操作

由于集群中为多态机器，这里规定一台主机为master，其他都为从机为slave，在进行集群免密时需要知道各主从机的IP和hostname，这里主机hostname为master，从机为slave1，slave2.。。。。。修改hostname的操作，sudo vim /etc/hostname。修改hostname主要为了方便自己区别。对自己本机的免密操作参考上篇博客，...

2018-06-04 14:52:54 513

原创 hadoop之ssh本机免密设置

1.下载好ssh终端 sudo apt-get install openssh-server2.ssh localhost 登录自己的机器，此时需要输入自己用户的密码3.生成密钥cd ~/.ssh ssh-keygen -t rsa 4.对自己进行免密 ssh-copy-id **** (这里为要免密的对象）第二种方式1.ssh lo...

2018-06-04 14:30:35 455