自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 SparkRDD+SparkSession进行数据清洗与数据分析并迁移至数据库中

SparkSQL+SparkRDD对中国保险汽车安全指数数据测试进行清洗与分析Spark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上 的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结 构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的

2020-05-22 16:21:50 994

原创 SparkSQL 使用UDF实现自定义函数

一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF:一进一出 UDAF:多进一出二、UDF函数这里实现自定义函数为截取字段:strSubpackage SparkSQLimport org.apache.spark.sql.types.{StringType, StructField, StructTy...

2019-07-11 10:58:04 1028

原创 实例掌握Hadoop MapReduce

作者介绍杜亦舒,创业中,技术合伙人,喜欢研究分享技术。个人订阅号:性能与架构。本文旨在帮您快速了解 MapReduce 的工作机制和开发方法,解决以下几个问题: MapReduce 基本原理是什么? MapReduce 的执行过程是怎么样的? MapReduce 的核心流程细节 如何进行 MapReduce 程序开发?(通过7个实例逐渐掌握) 文章中...

2019-02-24 14:11:50 194

原创 Flume架构与应用

 - Flume定义Flume是分布式,高可用,基于流式计算的,用于收集、聚合、移动大量日志数据的框架。- Flume模型 Source用于采集数据源的数据,然后封装成Event传输给Channel管道,期间也可以设置过滤器Chanel接受来自Source传输过来的Event数据Sink在Channel中拉取Event数据并将数输出,将数据写入存储设备上。Event:有可以...

2019-02-22 12:09:09 730

原创 数据仓库Hive--总结(1)

在这近一个多月的学习之路上,又重新学习了一遍之前学习过的Hive,在这次回头重新学习的过程中,对Hive的使用和理解方面自然感觉比之前更加清晰。所以在学习的过程中,对之前学习内容的二次学习很有必要。第一部分:Hive简介(这里先不讲述Hive平台的部署以及Hive在执行中的流程,下次给大家阐述。这里主要讲解Hive的运用)•Hive是基于Hadoop的一个数据仓库工具,可以将...

2019-02-18 13:28:44 700

原创 Airflow调度程序开发

需求:外界传入参数,使得Airflow的调度程序将参数值带入至相关执行程序中执行。

2022-09-09 14:53:59 271 1

原创 基于AES加密算法的Python解密窗体开发

什么是AES对称加密算法?具体工作步骤如下:1、发送使用密钥A,加密明文“AES加密算法”,加密结果为“gliVVW87tgdbT73QDBDW9Q==”2、发送方将加密结果发送至接收方。3、接收方收到密文“gliVVW87tgdbT73QDBDW9Q==”,利用密钥A进行解密得到明文“AES加密算法”。程序开发开发环境:Python 3.8依赖包:easygui、base64、Cryptodome.Cipher、re、csv、pandasimport easygui as

2022-04-12 15:19:44 665

原创 Clickhouse平台部署

说明:官方文档 :Installation | ClickHouse Docs1. 确定是否支持 SSE 4.2grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"2.Case A : 下载最新版。yum install yum-utils rpm --import https://repo.clickhouse.com/CLICKHO

2022-04-07 14:01:41 1359

原创 Spark之DataFrame与RDD之间的两种转换方式

说明:在SparkSQL中读外部数据进行读取进行ETL操作时,首先读取的数据格式为RDD数据结构,因此我们一项主要目标就是将读取到的RDD格式转化为DataFrame。RDD结构转化为DataFrame的形式主要分为两种:①反射②编程Row(StructType)package LogsAnalyseimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, St

2020-11-13 15:03:56 1940

原创 SparkSQL模块中DataFrame常用API操作

学习目标:对SparkSQL2.x模块中DataFrame的API操作进行整理。在工作中多个业务场景应用SparkSQL模块完成离线批处理操作,对海量历史数据处理和分析,分析结果数据,供下一步数据应用进行使用。并且在性能上解决了Hive方面的性能短板问题。在此记录下对SparkSQL模块中DataFrame的API常用操作。学习内容:1、 掌握DataFrame中常用api操作,包含:①数据源读取与保存。②在DataFrame中ETL操作。2、流程:①应用spark对象完成声明操作ps.

2020-11-13 14:40:05 704

原创 NameNode的fsimage和editlog

Namenode主要维护两个文件,一个是 fsimage,一个是 editlog。fsimage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。editlog主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到editlog中。简单来想,NameNode维护了文件与数据块的映射表

2020-08-11 11:15:37 431

原创 SparkSQL 使用UDAF实现自定义聚合函数

一、介绍Spark SQL中自定义函数包括UDF和UDAF(先前已经发布一篇SparkSQL的UDF函数,现在为大家讲解一下UDAF自定义聚合函数)自定义函数 UDF:一进一出 UDAF:多进一出 √二、UDAF函数UDA:户自定义聚合函数,类似在group by之后使用的sum,avg等。首先创建class继承接口UserD...

2019-09-26 11:13:58 196

原创 SparkSQL 使用UDAF实现自定义聚合函数

一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF:一进一出 UDAF:多进一出 √二、UDAF函数UDAF:User Defined Aggregate Function。用户自定义聚合函数。是Spark 1.5.x引入的最新特性。 *UDF:其实更多的是针对单行输入,返回一个输出 * 这里的UDAF,则可...

2019-07-12 09:32:22 328

原创 Spark中实现分组取TopN(scala版)

在Spark中经常需要对数据进行分组操作,接下来对spark中分组取Top进行讲解,实际中也是根据业务的需求进行更丰富的操作。1、数据源准备(spark.txt)class1 90class2 56class1 87class1 76class2 88class1 95class1 74class2 87class2 67class2 772.实现过程pa...

2019-06-03 09:48:43 1364 2

原创 hive中的order by,sort by, distribute by, cluster by作用讲解

《这篇文章用来当做笔记,也是看别人博客时想记录来清洗分辨》1. order byHive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会...

2019-05-06 09:20:13 174

转载 Flume学习笔记及配置参数详解

一、什么是flumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。二、flume特点flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Ev...

2019-02-22 14:02:14 751

原创 Flume日志收集系统之拦截器-----(1)

                  Flume中的拦截器(Interceptor)介绍与使用Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。Flume-ng 1.70中目前提供了以下拦截器:Timestamp Intercepto...

2019-02-19 14:49:49 641

原创 hadoop单机模式和伪分布模式的平台搭建

              1.安装sshsudo apt-get install openssh-server安装后可以使用如下命令登录本机ssh localhost   --会出现Are you sure wantto continue contecting(yes/no)?输入yes即可            2.对于ssh的理解ssh分为客户端和服务端一台计算机的时候输入的每条命令都是直接...

2018-06-04 14:55:08 442

原创 hadoop集群ssh集群免密操作

由于集群中为多态机器,这里规定一台主机为master,其他都为从机为slave,在进行集群免密时需要知道各主从机的IP和hostname,这里主机hostname为master,从机为slave1,slave2.。。。。。       修改hostname的操作,sudo vim /etc/hostname。修改hostname主要为了方便自己区别。       对自己本机的免密操作参考上篇博客,...

2018-06-04 14:52:54 460

原创 hadoop之ssh本机免密设置

1.下载好ssh终端 sudo apt-get install openssh-server2.ssh localhost 登录自己的机器,此时需要输入自己用户的密码3.生成密钥cd ~/.ssh                 ssh-keygen -t rsa 4.对自己进行免密                 ssh-copy-id **** (这里为要免密的对象)第二种方式1.ssh lo...

2018-06-04 14:30:35 417

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除