大数据相关
文章平均质量分 91
赣江
这个作者很懒,什么都没留下…
展开
-
Apache Kyuubi、Spark Thrift Server与Hive Server2
STS和HS2真可谓是一个复杂的历史,最开始的时候,Spark SQL的代码几乎全部都是Hive的照搬,随着时间的推移,Hive的代码被逐渐替换,直到几乎没有原始的Hive代码保留,具体的内容可以参考:Spark最开始打包的是Shark和SharkServer(Spark和Hive的结合体)。那个时候,这个结合体包含了大量的Hive代码。原创 2022-12-13 17:09:18 · 2041 阅读 · 1 评论 -
Apache Spark Join Strategies
spark join 策略原创 2022-08-19 16:02:40 · 1162 阅读 · 0 评论 -
[FAILED_TO_LOAD_NATIVE_LIBRARY] no native library is found for os.name=Mac and os.arch=aarch64
报错org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver): org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] n原创 2021-01-15 22:25:30 · 5767 阅读 · 3 评论 -
Flink Standalone集群模式下使用minio作为statebackend存储
需求flink standalone模式下不使用hdfs作为state的存储,而使用其他更加轻便的存储系统,本文使用minio作为statebackend的存储目录。minio介绍轻量级的对象存储服务,兼容Amazon’ S3关于存储的技术选型参考:https://blog.csdn.net/lily_214/article/details/106606729存储系统 HDFS FastDFS MinIO Ceph GridFS 开发语言 Java原创 2020-08-01 13:37:19 · 4068 阅读 · 7 评论 -
Flink作业问题分析和调优实践
Checkpoint 机制1.什么是 checkpoint简单地说就是 Flink 为了达到容错和 exactly-once 语义的功能,定期把 state 持久化下来,而这一持久化的过程就叫做 checkpoint ,它是 Flink Job 在某一时刻全局状态的快照。当我们要对分布式系统实现一个全局状态保留的功能时,传统方案会引入一个统一时钟,通过分布式系统中的 master 节点广播出去给每一个 slaves 节点,当节点接收到这个统一时钟时,它们就记录下自己当前的状态即...转载 2020-06-05 11:01:53 · 454 阅读 · 0 评论 -
cdh6.3安装以及整合spark2、flink1.9
总结:配置cm-server的yum本地安装路径,使用yum安装好cm-server即可,cm-agent无需手动到节点去安装,cm会自动在节点上安装。parcels文件不用安装yum本地源,后续直接拷贝到cm server 的/opt/cloudera/parcel-repo/下即可。jdk手动安装,目录必须是:/usr/java/jdk-version,否则报错yum需要安装前期的依...原创 2020-05-08 17:31:42 · 3601 阅读 · 0 评论 -
Flink Sink KafkaFlink作为生产者中并行度同kafkapartition关系
本文主要针对Flink1.0中关于Flink Sink的并行度和KafkaPartition的关系,官网见:https://ci.apache.org/projects/flink/flink-docs-master/dev/connectors/kafka.html#kafka-producer-partitioning-schemeBy default, if a custom pa...原创 2020-04-29 17:45:45 · 1915 阅读 · 0 评论 -
Flink滚动窗口函数的开窗起始时间计算规则
Flink的窗口函数起始时间计算公式:timestamp - (timestamp - offset + windowSize) % windowSize# timestamp为最早时间的记录时间戳# offset 为参数偏移时间# windowSize为窗口大小# 以上计算单位全部统一到毫秒再进行计算业务代码:.window(TumblingEventTimeWindows....原创 2020-04-21 20:29:54 · 4915 阅读 · 4 评论 -
HBase BulkLoad批量写入数据实战
原文地址:https://www.cnblogs.com/smartloli/p/9501887.html1.概述在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如...转载 2019-08-06 21:01:29 · 219 阅读 · 0 评论 -
scala中List、Array、ListBuffer、ArrayList、Set、元组区别
1.List列表:不可变LIst支持在头部快速添加和移除条目,但是不提供快速按下标访问的功能,这个功能需要线性遍历列。快速的头部添加和移除意味着模式匹配很顺畅List列表跟数组非常像,2者都是同构的,同一个列表的所有元素必须是相同类型。但是有2个重要区别1,List是不可变的,元素不能通过赋值改变。 2.列表的结构是递归的(即链表,linkedList),而数组是平等的。使...原创 2018-08-21 16:43:03 · 16291 阅读 · 0 评论 -
Flink整合kafka并基于事件源生成时间戳以及水印
本案例仅为官方文档案例补全说明。Flink整合Kafka,为Kafka中消息指定时间戳以及生成水印。消息格式:id,消息生成时间戳,消息体定义消息类:public class MyEvent implements Serializable { private String id; private Long eventTime; private String...原创 2019-02-16 18:45:18 · 5002 阅读 · 1 评论 -
c#中协变和逆变以及scala中协变和逆变
一直在看scala中关于协变和逆变,也一直没太明白,只是简单的记住了甚至记忆周期几个礼拜的结论:型变在scala中灵活的分为了不变,逆变和协变协变是可以用自己替换需要自己父亲的位置而是允许的,也就是当参数需要父类型参数时你可以传入子类型 逆变就是可以用父亲替换儿子的位置而是允许的,也就是当参数需要子类型的时候可以传入父类型 不变就是不能改变参数类型假定Student是Pers...转载 2018-05-21 16:11:08 · 258 阅读 · 0 评论 -
sparksql关于:创建hive外部表create external talble以及createGlobalTempView
先上结论:sparksql中不支持create external table外部表的创建,只能是非external表。使用外部表,可以直接加载数据并加载到DateSet.createOrReplaceTempView中完成。执行如下sql:// spark sql native syntax "USING HIVE"sql("create external table if no原创 2018-12-22 16:28:02 · 9134 阅读 · 2 评论 -
关于spark作业提交:spark运行example为例
示例:yarn-cluster提交:spark-submit --master yarn --deploy-mode cluster --executor-memory 2G --executor-cores 2 --queue root.helowin --class org.apache.spark.examples.SparkPi spark-examples-1.6.3-hadoop2...原创 2018-09-18 10:57:27 · 11618 阅读 · 0 评论 -
深入了解Spark SQL的Catalyst Optimizer
该博文为2015年发布,已经有些过时,但是了解的话,能更好的理解spark以及发展的趋势。 Spark SQL是Spark最新,技术最复杂的组件之一。它为SQL查询和新的DataFrame API提供支持。Spark SQL的核心是Catalyst优化器,它以一种新颖的方式利用高级编程语言功能(例如Scala的模式匹配和quasiquotes)来构建可扩展的查询优化器。我们最近发表了一...翻译 2018-09-17 10:33:13 · 2128 阅读 · 0 评论 -
Project Tungsten:将Apache Spark更接近裸机
在之前的博客文章中,我们回顾并调查了过去一年中对Apache Spark所做的性能改进。在这篇文章中,我们期待并与您分享下一章,我们称之为Project Tungsten。2014年见证了Spark在大规模排序方面创造了世界纪录,并看到了从Python到SQL到机器学习的整个引擎的重大改进。然而,性能优化是一个永无止境的过程。自项目启动以来,Project Tungsten将是Spark执行引...翻译 2018-09-17 10:08:18 · 572 阅读 · 0 评论 -
scala之类详解
章节类 5.类[ ⬆TOP](#start)本章要点: - 类中字段自动带有getter和setter方法 - 可以使用自定义getter/setter方法替换 - 用@BeanProperty注解来生成javaBeans的get/set方法 - 每个类都有一个主要的构造器,这个构造器和类定义“交织”再一起。它的参数直接成为类的字段。主构造器执行类体中所有的语句。...原创 2018-04-25 09:24:53 · 345 阅读 · 0 评论 -
scala基础、数组相关操作、映射、元组
章节基础 控制结构和函数 数组相关操作 映射和元组 1.基础[ ⬆TOP](#start)在REPL中可以输入:paste来粘贴代码进去,ctrl+d结束。 2.:quit推出REPL,:help显示帮助在Scala中赋值动作是没有值的,或者是Unit类型,所以x = y = 1 //赋值语句值是Unit类型,所以别把他们串接在一起,y=...原创 2018-04-25 09:23:22 · 353 阅读 · 0 评论