![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 70
一叶知秋--
终究是不如意
展开
-
Clickhouse平台部署
说明:官方文档 :Installation | ClickHouse Docs1. 确定是否支持 SSE 4.2grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"2.Case A : 下载最新版。yum install yum-utils rpm --import https://repo.clickhouse.com/CLICKHO原创 2022-04-07 14:01:41 · 1352 阅读 · 0 评论 -
Spark之DataFrame与RDD之间的两种转换方式
说明:在SparkSQL中读外部数据进行读取进行ETL操作时,首先读取的数据格式为RDD数据结构,因此我们一项主要目标就是将读取到的RDD格式转化为DataFrame。RDD结构转化为DataFrame的形式主要分为两种:①反射②编程Row(StructType)package LogsAnalyseimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, St原创 2020-11-13 15:03:56 · 1924 阅读 · 0 评论 -
NameNode的fsimage和editlog
Namenode主要维护两个文件,一个是 fsimage,一个是 editlog。fsimage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。editlog主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到editlog中。简单来想,NameNode维护了文件与数据块的映射表原创 2020-08-11 11:15:37 · 420 阅读 · 0 评论 -
SparkRDD+SparkSession进行数据清洗与数据分析并迁移至数据库中
SparkSQL+SparkRDD对中国保险汽车安全指数数据测试进行清洗与分析Spark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上 的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结 构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的原创 2020-05-22 16:21:50 · 981 阅读 · 0 评论 -
SparkSQL 使用UDAF实现自定义聚合函数
一、介绍Spark SQL中自定义函数包括UDF和UDAF(先前已经发布一篇SparkSQL的UDF函数,现在为大家讲解一下UDAF自定义聚合函数)自定义函数 UDF:一进一出 UDAF:多进一出 √二、UDAF函数UDA:户自定义聚合函数,类似在group by之后使用的sum,avg等。首先创建class继承接口UserD...原创 2019-09-26 11:13:58 · 195 阅读 · 0 评论 -
SparkSQL 使用UDAF实现自定义聚合函数
一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF:一进一出 UDAF:多进一出 √二、UDAF函数UDAF:User Defined Aggregate Function。用户自定义聚合函数。是Spark 1.5.x引入的最新特性。 *UDF:其实更多的是针对单行输入,返回一个输出 * 这里的UDAF,则可...原创 2019-07-12 09:32:22 · 326 阅读 · 0 评论 -
SparkSQL 使用UDF实现自定义函数
一、介绍Spark SQL中自定义函数包括UDF和UDAF自定义函数 UDF:一进一出 UDAF:多进一出二、UDF函数这里实现自定义函数为截取字段:strSubpackage SparkSQLimport org.apache.spark.sql.types.{StringType, StructField, StructTy...原创 2019-07-11 10:58:04 · 1023 阅读 · 0 评论 -
Spark中实现分组取TopN(scala版)
在Spark中经常需要对数据进行分组操作,接下来对spark中分组取Top进行讲解,实际中也是根据业务的需求进行更丰富的操作。1、数据源准备(spark.txt)class1 90class2 56class1 87class1 76class2 88class1 95class1 74class2 87class2 67class2 772.实现过程pa...原创 2019-06-03 09:48:43 · 1359 阅读 · 2 评论 -
hive中的order by,sort by, distribute by, cluster by作用讲解
《这篇文章用来当做笔记,也是看别人博客时想记录来清洗分辨》1. order byHive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会...原创 2019-05-06 09:20:13 · 171 阅读 · 0 评论 -
Flume日志收集系统之拦截器-----(1)
Flume中的拦截器(Interceptor)介绍与使用Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。Flume-ng 1.70中目前提供了以下拦截器:Timestamp Intercepto...原创 2019-02-19 14:49:49 · 640 阅读 · 0 评论 -
实例掌握Hadoop MapReduce
作者介绍杜亦舒,创业中,技术合伙人,喜欢研究分享技术。个人订阅号:性能与架构。本文旨在帮您快速了解 MapReduce 的工作机制和开发方法,解决以下几个问题: MapReduce 基本原理是什么? MapReduce 的执行过程是怎么样的? MapReduce 的核心流程细节 如何进行 MapReduce 程序开发?(通过7个实例逐渐掌握) 文章中...原创 2019-02-24 14:11:50 · 193 阅读 · 0 评论 -
数据仓库Hive--总结(1)
在这近一个多月的学习之路上,又重新学习了一遍之前学习过的Hive,在这次回头重新学习的过程中,对Hive的使用和理解方面自然感觉比之前更加清晰。所以在学习的过程中,对之前学习内容的二次学习很有必要。第一部分:Hive简介(这里先不讲述Hive平台的部署以及Hive在执行中的流程,下次给大家阐述。这里主要讲解Hive的运用)•Hive是基于Hadoop的一个数据仓库工具,可以将...原创 2019-02-18 13:28:44 · 693 阅读 · 0 评论 -
Flume学习笔记及配置参数详解
一、什么是flumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。二、flume特点flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Ev...转载 2019-02-22 14:02:14 · 747 阅读 · 0 评论 -
Flume架构与应用
- Flume定义Flume是分布式,高可用,基于流式计算的,用于收集、聚合、移动大量日志数据的框架。- Flume模型 Source用于采集数据源的数据,然后封装成Event传输给Channel管道,期间也可以设置过滤器Chanel接受来自Source传输过来的Event数据Sink在Channel中拉取Event数据并将数输出,将数据写入存储设备上。Event:有可以...原创 2019-02-22 12:09:09 · 727 阅读 · 0 评论