![](https://img-blog.csdnimg.cn/20190918140145169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
计算引擎
文章平均质量分 90
常见的大数据计算引擎,如hive,spark,flink等
孟知之
知之为知之
展开
-
【计算引擎】大数据处理的一些方法及代码
文章目录spark1 累加历史1.1 spark sql 使用窗口函数累加历史数据1.2 使用Column提供的over 函数,传入窗口操作1.3 累加一段时间范围内2 统计全部2.1 spark sql 使用rollup添加all统计2.2 spark sql 使用rollup添加all统计3 行转列 ->pivot4 空值处理4.1 对指定的列空值填充4.2 删除某列的非空且非NaN的低...原创 2019-12-17 23:27:44 · 689 阅读 · 0 评论 -
【计算引擎】水塘抽样算法
spark中的分区器有三种:1.HashPartitioner分区可能HashPartitioner导致每个分区中数据量的不均匀。2.RangePartitioner分区尽量保证每个分区中数据量的均匀,将一定范围内的数映射到某一个分区内。分区与分区之间数据是有序的,但分区内的元素是不能保证顺序的。(这里其实就用到了水塘抽样算法)3.自定义那水塘抽样算法是什么呢?能解决什么类型的问题呢?问...原创 2020-04-02 23:32:46 · 517 阅读 · 0 评论 -
【计算引擎】如何实现SparkStreaming程序的高可用与断点续传
文章目录解决7*24小时稳定运行解决在程序升级的条件下,实现断点续传解决7*24小时稳定运行首先,为了保证实时计算程序可以7*24小时能稳定运行,则第一个考虑就是要实现SparkStreaming对接Kafka实时计算程序HA高可用。保证master高可用,worker节点的失败是具有容错性的(迄今为止,Spark自身而言对于丢失部分计算工作是有容错性的,它会将丢失的计算工作迁移到其他w...原创 2020-04-19 22:06:36 · 540 阅读 · 0 评论 -
【计算引擎】实时计算相关问题及解决方案
文章目录1. 怎么处理 Spark structured streaming 慢速变化数据 join 的问题?2. kafka不稳定导致Spark Streaming不稳定1. 怎么处理 Spark structured streaming 慢速变化数据 join 的问题?问题:从 MySQL 的一个表里面提取 metadata 然后和 structured streaming 的实时数据做 ...原创 2020-05-07 09:22:04 · 376 阅读 · 0 评论 -
【计算引擎】OLAP之争:kylin、impala、druid、presto、clickhouse
文章目录1. 即席查询2. Kylin2.1 架构2.2 原理2.3 Cube构建优化3. Impala3.1 架构3.2 优化4. Druid4.1 架构4.2 数据结构4.2.1 DataSource4.2.2 Segment结构5. Presto5.1 架构5.2 数据源6. ClickHouse6.1 特性6.2 架构7.总结1. 即席查询即席查询是用户根据自己的要求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表,快速的执行自定义SQL。2. KylinApache kylin原创 2021-06-10 17:41:34 · 3026 阅读 · 2 评论 -
【计算引擎】Spark和Hive中数据倾斜的情况分析及解决方案
文章目录1. 数据倾斜是什么2. 数据倾斜的表现2.1 Hive中的数据倾斜2.2 spark中的数据倾斜3. 数据倾斜的原因3.1 Shuffle3.2 数据本身3.3 业务逻辑4. 数据倾斜的解决方案5.举个栗子5.1 由空值造成的数据倾斜5.2 count(distinct)的倾斜问题5.3 不同数据类型关联产生数据倾斜5.4 小表不小不大,怎么用 map join 解决倾斜问题6.总结1. 数据倾斜是什么数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几原创 2020-05-23 22:58:20 · 1213 阅读 · 2 评论 -
【计算引擎】Hive外部表的适用场景及原因
在实际的生产环境中,建议在ods层使用外部表。原因:外部表不会加载数据到Hive的默认仓库(挂载数据),减少了数据的传输,同时还能和其他外部表共享数据。使用外部表,Hive不会修改源数据,不用担心数据损坏或丢失。Hive在删除外部表时,删除的只是表结构,而不会删除数据。...原创 2020-05-23 22:57:14 · 1234 阅读 · 0 评论 -
【计算引擎】Flink要点总结
文章目录1. 什么是Flink?2. Flink的组件栈3. Flink集群运行时的角色及其作用4. Flink分区策略5. Flink容错机制6. Flink计算资源的调度是如何实现的?1. 什么是Flink?Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink 提供了诸多高抽象层的 API 以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集原创 2020-05-21 00:12:03 · 523 阅读 · 0 评论 -
【计算引擎】spark任务参数配置优化真实案例记录
文章目录1.Spark 任务调度优化2.Spark 应用配置优化3.硬件优化4.SQL优化方法1.Spark 任务调度优化将4台Worker机器的 CPU 使用率进行对比分析,发现 CPU 使用率有些蹊跷的地方,通过观察其CPU使用率,可以发现在第一个 job 的第二个阶段,第三台机器的 CPU 使用率和其他机器明显不同,也就是说计算资源利用不均衡,这种有忙有闲的资源分配方式通常会引起性能问题...原创 2020-04-13 22:45:16 · 437 阅读 · 0 评论 -
【计算引擎】SparkStreaming、StructuredStreaming、Flink、Storm 对比
Spark StreamingSpark Streaming 是Spark Core 的扩展,可实现实时数据的快速扩展,高吞吐量,容错处理。数据可以从很多来源(如 Kafka、Flume、Kinesis 、HDFS、Twitter等)中提取,并且可以通过很多函数(能够和Spark Core、Spark SQL来进行混合编)来处理这些数据,处理完后的数据可以直接存入数据库或者 Dashboard...原创 2020-04-04 21:04:31 · 1396 阅读 · 0 评论 -
【计算引擎】spark笔记-spark性能优化
文章目录1. spark基本概念2. 数据倾斜优化2.1 数据倾斜是什么?2.2 如何定位数据倾斜?2.3 数据倾斜的几种典型情况2.4 缓解数据倾斜-避免数据源的数据倾斜2.5 缓解数据倾斜-调整并行度2.6 缓解数据倾斜-自定义Partitioner2.7 缓解数据倾斜- Reduce side Join转变为Map side Join2.8 缓解数据倾斜-两阶段聚合(局部聚合+全局聚合)2....原创 2020-03-20 00:36:38 · 503 阅读 · 0 评论 -
【计算引擎】spark笔记-shuffle及通信设计、内存
文章目录1.spark shuffle1.1 mapreduce shuffle过程1.1.1 Spill过程1.1.2 merge1.1.3 copy1.1.4 merge sort1.2 Hash Shuffle过程1.3 Sort Shuffle 过程1.4 spark目前运作的实现模式1.5 mapreduce和spark的shuffle区别2. spark 内存管理3. Spark RP...原创 2020-03-18 17:00:45 · 284 阅读 · 0 评论 -
【计算引擎】spark笔记-GraphX图计算
文章目录1. Spark GraphX2.Spark GraphX的抽象3.Spark GraphX图的构建4. Spark GraphX图的计算模式4.1 Spark GraphX 图的转换操作4.2 转换操作4.2 结构操作4.3 关联操作4.4 聚合操作5.GraphX实例1. Spark GraphXSpark GraphX是Spark的一个模块,主要用于进行以图为核心的计算还有分布...原创 2020-03-17 14:25:27 · 1145 阅读 · 0 评论 -
【计算引擎】spark笔记-实时计算
Spark StreamingSPark Streaming是Spark中一个组件,基于Spark Core进行构建,用于对流式进行处理,类似于Storm。Spark Streaming能够和Spark Core、Spark SQL来进行混合编程。Spark Streaming我们主要关注:Spark Streaming 能接受什么数据? kafka、flume、HDFS、Twitte...原创 2020-03-15 17:21:11 · 700 阅读 · 0 评论 -
【计算引擎】spark笔记-UDF&&UDAF
应用UDF函数通过spark.udf.register(name,func)来注册一个UDF函数,name是UDF调用时的标识符,fun是一个函数,用于处理字段。需要将一个DF或者DS注册为一个临时表。通过spark.sql去运行一个SQL语句,在SQL语句中可以通过 name(列名) 方式来应用UDF函数。UDAF 用户自定义聚合函数弱类型用户自定义聚合函数新建一个Cla...原创 2020-03-14 23:46:23 · 244 阅读 · 0 评论 -
【计算引擎】spark笔记-spark sql
SPARK SQL是Spark套件中的一个模块,他将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。Spark SQL的特点:和Spark Core的无缝集成,我可以在写整个RDD应用的时候,配置Spark SQL来实现我的逻辑。统一的数据访问方式,Spark SQL提供标准化的SQL查询。Hive的继承,S...原创 2020-03-12 23:24:55 · 191 阅读 · 0 评论 -
【计算引擎】spark笔记-submit提交&调试程序
Spark 提交应用程序1、 进入到spark安装目录的bin,调用Spark-submit脚本 2、 在脚本后面传入参数 1、--class你的应用的主类 2、--master 你的应用运行的模式,Local、Local[N]、Spark://hostname:port 、Mesos、Yarn-client、Yarn-cluster 3、[可选] 你可以指定...原创 2020-03-12 18:20:43 · 379 阅读 · 0 评论 -
【数据中台】大数据常用hadoop组件
文章目录1.Hadoop1.1 定义1.2 特点优点1.3Hadoop优化1.3.1Mapreduce跑的慢的原因1.3.2优化方法2.HDFS2.1 HDFS设计目标2.2 HDFS的重要特性2.3 优缺点2.4 小文件解决方法3.HBase3.1特点3.2架构4.Zookeeper4.1 工作机制4.2特点4.2 选举机制4.3监听器原理4.4部署方式有哪几种?集群中的角色有哪些?集群最少需要...原创 2020-02-27 00:33:49 · 1523 阅读 · 0 评论