商俊超-CSDN博客

原创 iceberg Flink操作

数据湖iceberg flink实操

2022-05-27 12:28:31 751 1

JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spark是如何选择JOIN策略的影响JOIN操作的因素数据集的大小参与JOIN的数据集的大小会直接影响Join操作的执行效率。同样，也会影响JOIN机制的选择和JOIN的执行效率。JOIN的条件JOIN的条件会涉及字段之间的逻

2021-01-07 21:49:16 561

原创 Spark ShuffleWriter的三种方式

SortShuffleWriter1.如果没有局部聚合且分区数小于spark.shuffle.sort.bypassMergeThresheld=200 则会使用BypassMergeSorteShuffleWriter2.如果没有聚不聚和，分区数小于16777216并且Serializer支持relocation则使用UnsafeShuffleWriter3.如果有局部聚合也支持排序操作则使用SortShuffleWriter不同shuffleWrite的实现细节1.Bypas

2021-01-07 15:39:43 456

原创 Scala-AKKA基础代码实现

AKKA底层实现原理代码实现import akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collection.mutableimport scala.concurrent.duration._class Master extends Actor{ //将Worker信息存到map集合中 val map = new mutable..

2020-12-18 22:36:49 243 1

原创 Hbase-协处理器操作过程（二级索引）

1. 创建两个表2. 编写代码import java.io.IOException;import java.util.List;import java.util.Map.Entry;import java.util.NavigableMap;import java.util.Optional;import java.util.Set;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbas..

2020-11-29 22:10:46 177

原创 Hbase原理——写数据、读数据和布隆过滤器（算法）

写数据客户端写数据–> put a rk1001 cf1:age 21 (a表 rk1001行列族为cf 属性是age 值为21)1.客户端写数据找zookeeper，知道要写的数据的元数据在哪个regionserver中（由于表的META（元数据）过大，存储不了这么大的数据，只能存储META的位置）2.zookeeper返回给客户端meta的位置3.客户端向存有META的regionserver下载元数据表（为什么要下载：因为meta比较大，实际存储meta的是

2020-11-26 22:06:51 265

原创 BigData项目-②数据集成

1. 生成GEOHASH字典1.1 先将全国的经纬度整理成省市区经纬度的格式CREATE TABLE area_dictASSELECT sheng.AREANAME provience, shi.AREANAME city, qu.AREANAME region, qu.BD09_LNG BD09_LNG, qu.BD09_LAT BD09_LATFROMt_md_areas quJOINt_md_areas shi ON qu.PARENTID = shi.IDJO

2021-01-13 21:50:35 309

原创 Linux上发送邮件系统

1 安装一个linux的邮件客户端yum install mailx -y2 配置邮件账号、服务器等vi /etc/mail.rcset smtp=smtp://smtp.163.com:25 # 这里填入smtp地址set smtp-auth=login # 认证方式set smtp-auth-user=coderblack@163.com # 这里输入邮箱账号set smtp-auth-password=abc12345678 ...

2021-01-13 21:44:01 285

原创 BigData项目 -①将flume完的日志文件导入到hive数仓中

1. flume日志文件1.1 上游conf文件a1.sources = r1a1.channels = c1a1.sinks = k1 k2a1.sources.r1.channels = c1a1.sources.r1.type = TAILDIRa1.sources.r1.filegroups = g1 g2a1.sources.r1.filegroups.g1 = /opt/data/logdata/app/event.*a1.sources.r1.filegroups.

2021-01-11 20:13:29 500

原创 Kafka 快速入门-安装、基本操作

Kafka是一个分布式消息缓存系统broker Kafka集群包含一个或多个服务器，这种服务器成为brokerTopic 每条发布到Kafka集群的消息都有一个类别，这个类别被称为topic（物理上不同的topic的消息分开存储。逻辑上一个topic的消息虽然保存在一个或多个broker上但用户只需指定消息的topic即可生产或消费数据而不必关心数据存于何处）Partition partition是物理上的一个概念，每个topic包含一个或多...

2021-01-10 15:05:25 188

原创 Flume 级联和自定义拦截器案例

1.模拟日志数据的产生for i in {1..1000000}; do echo "${i},lisi,`date +%s`000,iphone8plus,submit_order" >> a.log; sleep 0.5; done数据在不断的产出同理在另一台虚拟机上产数据2.自定义拦截器自定义的拦截器用于记录业务端产生时的时间戳2.1 在pom文件中添加依赖 <dependencies> <dependen

2021-01-08 21:46:32 233 1

原创 Flume 核心概念和安装部署

1.概述flume是由cloudera软件公司产出的可分布式日志收集系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出，特别是flume-ng;同时flume内部的各种组件不断丰富，用户在开发的过程中使用的便利性得到很大的改善，现已成为apache top项目之一.补充：cloudera公司的主打产品是CDH（hadoop的一个企业级商业发行版）1.1什么是FlumeApache Flum...

2021-01-08 21:34:27 204

原创 Hive-自定义函数

1 创建maven工程添加依赖 <dependencies>  <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec&lt

2021-01-08 14:26:52 81

原创 Spark 运行模式(StandAlone Yarn)

1.StandAlone 模式1.1 Client 模式流程:Client模式Drive运行在Client上，使用Spark Shell提交任务的时候，Drive运行在Master上1.Spark Context 连接到Master，并向Master注册申请资源2.Master根据sc提出的申请，检测Worker的心跳，并找到有资源的Worker,并在Worker上启动Executor，3.启动Executor的Worker机器向SC注册4.SC将应用分配给Executor

2021-01-07 17:41:21 226 1

原创 Spark ShuffleManger

Spark Shuffle演变史Spark 0.8及以前 Hash Based ShuffleSpark 0.8.1 为Hash Based Shuffle引入File Consolidation机制Spark 0.9 引入ExternalAppendOnlyMapSpark 1.1 引入Sort Based Shuffle，但默认仍为Hash Based ShuffleSpark 1.2 默认的Shuffle方式改为Sort Based ShuffleSpark 1.4 引入Tu

2021-01-07 16:27:40 124

原创 Spark-SQL 使用SQL和DSL 统计用户上网流量案例

需求分析：统计用户上网流量，如果两次上网的时间小于10分钟，就可以rollup到一起uid,start_time,end_time,flow1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,50.

2021-01-06 23:54:42 261

原创 Spark-SQL 使用SQL和DSL 计算店铺的与销售额和累加到当前月的销售和

计算店铺的与销售额和累加到当前月的销售和数据：sid,dt,moneyshop1,2019-01-18,500shop1,2019-02-10,500shop1,2019-02-10,200shop1,2019-02-11,600shop1,2019-02-12,400shop1,2019-02-13,200shop1,2019-02-15,100shop1,2019-03-05,180shop1,2019-04-05,280shop1,2019-04-06,220shop2,.

2021-01-05 23:28:49 304

原创 Spark-SQL 使用SQL和DSL 用户连续登录案例

guid01,2018-02-28guid01,2018-02-28guid01,2018-03-01guid01,2018-03-02guid01,2018-03-05guid01,2018-03-05guid01,2018-03-04guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-02guid02,2018-03-03guid02,2018-03-06guid02,2018-03-02gu..

2021-01-05 09:32:13 236

原创 Spark-SQL 读写Orc 文件

读文件 import org.apache.spark.sql.{DataFrame, SparkSession}//通过csv文件创建DataFrameobject CreateDataFrameFromOrc { def main(args: Array[String]): Unit = { //创建SparkSession(是对SparkContext的包装和增强) val spark: SparkSession = SparkSession.builder()..

2021-01-04 20:12:06 3212

原创 Spark-SQL 读写Parquet文件

读Parquet格式wenjian import org.apache.spark.sql.{DataFrame, SparkSession}object CreateDataFrameFromParquet { def main(args: Array[String]): Unit = { //创建SparkSession(是对SparkContext的包装和增强) val spark: SparkSession = SparkSession.builder() ...

2021-01-04 20:09:52 893

原创 Spark-SQL 读写jdbc

读jdbc中的信息 import java.util.Propertiesimport org.apache.spark.sql.{DataFrame, SparkSession}object CreateDataFrameFromJDBC { def main(args: Array[String]): Unit = { //创建SparkSession val spark = SparkSession.builder() .appName(this....

2021-01-04 20:00:25 758

原创 Spark-SQL 读写csv文件

name,age,fv_valuelibai,18,9999.99xuance,30,99.99diaochan,28,99.99libai,18,9999.99xuance,30,99.99diaochan,28,99.99 读csv文件 import org.apache.spark.sql.{DataFrame, SparkSession}object CreateDataFrameFromCsv { def main(args: Array[Strin..

2021-01-04 19:40:54 2301

原创 Spark-SQL 读写json文件

{"name": "libai", "age": 30, "fv": 99.99}{"name": "xiaoqiao", "age": 28, "fv": 9.99}{"name": "yasuo", "age": 18, "fv": 80.99, "gender": "male"}{"name": "banzang", "age": 18, "fv": 9999.99}{"name": "saisi", "fv": 9999.98, "gender": "female"}{"name": ..

2021-01-04 18:11:04 777

原创 Spark-sql 通过case class、class和StructType的方式创建DataFrame

1.通过case class 的方式创建DataFramelaozhao,18,9999.99laoduan,30,99.99xuance,28,99.99yeqing,25,99.0dezhi,24,99.9libai,88,50.0banzang,29,50.6import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame,.

2021-01-04 17:55:33 3532 1

原创 Spark On Yarn

1.配置Hadoop①需要在/etc/profile中配置HADOOP_CONF_DIR的目录，目的是为了让Spark找到core-site.xml、hdfs-site.xml和yarn-site.xml【让spark知道NameNode、ResourceManager】，不然会包如下错误：Exception in thread "main" java.lang.Exception: When running with master 'yarn' either HADOOP_CONF_DIR or YA

2021-01-04 14:56:13 576

原创 Spark-RDD 统计用户上网流量连续上网案例

1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18:03:27,602,2020-02-18 14:18:24,2020-02-.

2021-01-04 14:41:41 293

空空如也

空空如也