bigdata
文章平均质量分 51
黄道婆
大数据开发工程师、AI算法工程师,喜欢写代码、喜欢读IT资料,IT行业的一名小学生,持续学习ing。活到老,学到老。
程序员的追求:知识、技术、创新。我喜欢这句话。
展开
-
转载:kafka如何保证消息不丢失不被重复消费
原始链接:https://blog.csdn.net/weixin_42674359/article/details/101519394kafka如何保证消息不丢失不被重复消费文章目录 kafka如何保证消息不丢失不被重复消费 消息的发送机制 消息的接受机制 消息的重复消费如何解决 kafka如何保证消息不丢失不被重复消费在解决这个问题之前,我们首先梳理一下kafka消息的发送和消费机制。消息的发送机制kafka的消息发送机制分为同...转载 2021-02-24 14:07:28 · 485 阅读 · 0 评论 -
转载:安装和卸载OpenResty
原始链接:https://blog.csdn.net/qq_36470898/article/details/105538947安装和卸载OpenResty奋斗的IT小白菜2020-04-15 20:51:422041收藏2分类专栏:下载安装文章标签:大数据版权安装和卸载OpenResty一、OpenResty简介 二、OpenResty安装 2.1 OpenResty下载 2.2 解压安装OpenResty 三、OpenResty...转载 2021-02-01 15:22:45 · 1741 阅读 · 0 评论 -
转载:常用组件日志清理
原始链接:https://www.cnblogs.com/barneywill/p/11127383.html包括cloudera-manager、hdfs、impala、kudu、oozie以及系统日志等;#cloudera-service-monitor log/bin/rm /var/lib/cloudera-service-monitor/ts/*/partition*/* -rf/bin/rm /var/lib/cloudera-host-monitor/ts/*/part.转载 2021-01-12 10:02:59 · 130 阅读 · 0 评论 -
一个讲kudu比较好的博客
一个讲kudu比较好的博客https://www.cnblogs.com/barneywill/category/1380854.html原创 2021-01-03 20:57:07 · 90 阅读 · 0 评论 -
转载:kudu删表
原始链接:https://blog.csdn.net/weixin_38917031/article/details/101703461kudu删表kudu的删表和在impala上删表不是一回事在impala上drop table XXX ,删完,只是在impala里没有了,但是在kudu里依旧存在。为什么呢,impala只是一个交互查询的工具,kudu是一个列式存储引擎;impala中常用关联kudu标的语法是CREATE EXTERNAL TABLE `zhk_jczyk..转载 2021-01-03 13:59:01 · 2550 阅读 · 0 评论 -
impala-shell Error connecting TTransportException 21000错误的解决办法
impala-shell Error connecting TTransportException 21000错误的解决办法错误描述:[root@node03 impala]# impala-shellStarting Impala Shell without Kerberos authenticationError connecting: TTransportException, Could not connect to node03.hadoop.com:21000************原创 2020-12-29 20:55:01 · 4151 阅读 · 0 评论 -
转载:Kudu 的架构概述
原始链接:https://blog.csdn.net/CZ_yjsy_data/article/details/97048751Kudu 的架构概述目录Kudu 的架构概述体系结构概述Kudu 的特点Kudu 的概念和术语体系结构概述下图显示了一个Kudu集群,其中有三个主机和多个 tablet servers,每个tablet server 都服务于多个tabletKudu 的特点特点一:主从架构主为master,从为tablet server...转载 2020-12-28 17:58:20 · 120 阅读 · 0 评论 -
转载:kudu学习笔记:kudu介绍
原始链接:https://blog.csdn.net/ugug654/article/details/77337630kudu介绍Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。Kudu 共享 Hadoop 生态系统应用的常见技术特性: 它在 commodity hardware(商品硬件)上运行,horizontally scalable(水平可扩展),并支持 highly available(高可用)性操作。此外,Kudu 还有更多优化的特点:OLAP 工.转载 2020-12-28 17:32:06 · 106 阅读 · 0 评论 -
转载:Spark之RDD弹性特性
原始链接:https://www.cnblogs.com/xiaoyh/p/10976075.htmlSpark之RDD弹性特性 RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面。1.自动进行内存和磁盘数据存储的切换 Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下的数据,也能计算内存放不下的数据。如果实际数据大于内存,则要考虑数据放置策略和优化算法。当应用程序内存不足时,Spark应用程序将数据自动从内存存储切换到磁盘存储,以保障其高效转载 2020-12-27 14:13:50 · 376 阅读 · 0 评论 -
转载:spark的shuffle过程(shuffle writer 的 UnsafeShuffleWriter)
原始链接:http://spark.coolplayer.net/?p=558彻底搞懂spark的shuffle过程(shuffle writer 的 UnsafeShuffleWriter)整体流程UnsafeShuffleWriter 里面维护着一个 ShuffleExternalSorter, 用来做外部排序, 我在上一篇文章里面已经讲过什么是外部排序了, 外部排序就是要先部分排序数据并把数据输出到磁盘,然后最后再进行merge 全局排序, 既然这里也是外部排序,跟 Sort...转载 2020-12-27 13:23:47 · 199 阅读 · 1 评论 -
转载:spark数据倾斜的解决办法
原始链接:http://spark.coolplayer.net/?p=3794spark面试必问|碰到数据倾斜你该咋办2019-12-24分类:Delta/spark-core阅读(930)评论(0)目录:一、数据倾斜介绍与定位二、解决方法一:聚合数据源三、解决方法二:提高shuffle操作reduce并行度四、解决方法之三:随机key实现双重聚合五、解决方法之四:将reduce join转换为map join六、解决方法之五:sample采样倾斜key进行...转载 2020-12-26 22:45:29 · 178 阅读 · 1 评论 -
讲spark比较好的网站
https://www.cnblogs.com/jcchoiling/http://spark.coolplayer.net/原创 2020-12-24 10:34:55 · 163457 阅读 · 2 评论 -
转载:Spark性能调优
原始链接:https://www.cnblogs.com/jcchoiling/p/6440709.html[Spark性能调优] 第一章:性能调优的本质、Spark资源使用原理和调优要点分析本課主題大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子引言我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让在进入性能调优之前都是一个至关重..转载 2020-12-24 10:29:25 · 128 阅读 · 0 评论 -
转载:Spark对数据倾斜的八种处理方法
原始链接:http://itindex.net/detail/57899-spark-%E6%95%B0%E6%8D%AE-%E6%96%B9%E6%B3%95Spark对数据倾斜的八种处理方法 | Peripateticism标签:| 发表时间:2018-01-10 16:04 | 作者:出处:http://yuenshome.cnSpark对数据倾斜的八种处理方法1 Reply本文主要讲Spark针对数据倾斜的解决方案(来自数盟的一篇文章《数据倾斜是多么痛?spark作业..转载 2020-12-24 10:25:20 · 99 阅读 · 0 评论 -
转载:Spark的Shuffle过程介绍
原始链接:https://www.cnblogs.com/jxhd1/p/6528535.htmlSpark的Shuffle过程介绍Spark的Shuffle过程介绍Shuffle WriterSpark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket,Map产生的结果会根转载 2020-12-24 10:04:53 · 128 阅读 · 1 评论 -
spark学习笔记:DStream介绍
DStream3.1 什么是DStreamDiscretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据,如下图:对数据的操作也是按照RDD为单位来进行的Spark Streaming使用数据源产生的数据流创建DStream,也可以在已有的DStream上使用一些操作来创建新的DStream。它的工作流程像下面的.原创 2020-12-18 17:13:33 · 1267 阅读 · 1 评论 -
spark学习笔记:Spark Streaming介绍
Spark Streaming介绍1.1 Spark Streaming概述1.1.1什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如:map、reduce、join、w.原创 2020-12-18 16:06:16 · 374 阅读 · 1 评论 -
spark学习笔记:DataSet
DataSet4.1. 什么是DataSetDataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/flatmap/filter)进行多种操作。4.2. DataFrame、DataSet、RDD的区别假设RDD中的...原创 2020-12-17 19:21:04 · 200 阅读 · 0 评论 -
spark学习笔记:DataFrame
DataFrame 什么是DataFrame DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是:DataFrame不再直接继承自RDD,而是自己实现了RDD的绝大多数功能。你仍旧可以在DataFrame上调用rdd方法将其转换为一个RDD。在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库的二维表格,DataFrame带有Schema元信息,...原创 2020-12-16 22:04:40 · 292 阅读 · 0 评论 -
spark学习笔记:Spark SQL概述
学习笔记:Spark SQL概述一、什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优化,使对结构化数据的操作更加高效和方便。有多种方式去使用Spark SQL,包括SQL、DataFrames API和Datasets API。但无论.原创 2020-12-16 09:17:35 · 177 阅读 · 0 评论 -
spark学习笔记:Spark运行架构
Spark运行架构12. Spark运行基本流程 Spark运行基本流程参见下面示意图:构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源; 资源管理器分配Executor资源并启动Executor,Executor运行情况将随着心跳发送到资源管理器上; SparkContext构建成DAG图,将DAG图分解成Stage,并把...原创 2020-12-15 13:29:48 · 99 阅读 · 0 评论 -
spark学习笔记:RDD容错机制之checkpoint
RDD容错机制之checkpoint 10. checkpoint是什么(1)、Spark 在生产环境下经常会面临transformation的RDD非常多(例如一个Job中包含1万个RDD)或者具体transformation的RDD本身计算特别复杂或者耗时(例如计算时长超过1个小时),这个时候就要考虑对计算结果数据持久化保存;(2)、Spark是擅长多步骤迭代的,同时擅长基于Job的复用,这个时候如果能够对曾经计算的过程产生的数据进行复用,就可以极大的提升效率;(3)、如果采用per...原创 2020-12-15 13:26:05 · 96 阅读 · 0 评论 -
spark学习笔记:Spark任务调度
9. Spark任务调度9.1 任务调度流程图各个RDD之间存在着依赖关系,这些依赖关系就形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG进行Stage划分,划分的规则很简单,从后往前回溯,遇到窄依赖加入本stage,遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskScheduler 负责具体的task调度,最后在Worker节点...原创 2020-12-14 22:53:16 · 154 阅读 · 0 评论 -
spark学习笔记:RDD的依赖关系
1. RDD的依赖关系1.1 RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。1.2 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女1.3 宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition总结:宽依赖我们形象的比喻为超生...原创 2020-12-14 21:51:16 · 508 阅读 · 0 评论 -
spark学习笔记:弹性分布式数据集RDD(Resilient Distributed Dataset)
弹性分布式数据集RDD1. RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。Dataset:一个数据集合,用于存放数据的。Distributed:RD...原创 2020-12-14 12:21:50 · 509 阅读 · 0 评论 -
转载:【Android 修炼手册】Gradle 篇 -- Gradle 源码分析
原始链接:https://zhuanlan.zhihu.com/p/67842670【Android 修炼手册】Gradle 篇 -- Gradle 源码分析ZYLAB已关注15 人赞同了该文章预备知识理解 gradle 的基本开发 了解 gradle task 和 plugin 使用及开发 了解 android gradle plugin 的使用看完本文可以达到什么程度了解 gradle 的实现原理阅读前准备工作cloneEasyGradle项目 下载G...转载 2020-12-11 13:44:51 · 254 阅读 · 0 评论 -
转载:【Android 修炼手册】Android Gradle Plugin 主要 Task 分析
原始链接:https://zhuanlan.zhihu.com/p/67049158【Android 修炼手册】Android Gradle Plugin 主要 Task 分析ZYLAB已关注11 人赞同了该文章上文回顾上篇文章里讲了 android gradle plugin 的整体流程,引入插件以后生成了很多 Task,这篇文章就谈谈生成的这些 Task 都有什么用处,以及一些主要 Task 的实现预备知识理解 gradle 的基本开发 了解 gradle task转载 2020-12-11 13:42:12 · 143 阅读 · 0 评论 -
转载:【Android 修炼手册】Android Gradle Plugin 插件主要流程
原始链接:https://zhuanlan.zhihu.com/p/66052867【Android 修炼手册】Android Gradle Plugin 插件主要流程ZYLAB已关注7 人赞同了该文章预备知识理解 gradle 的基本开发 了解 gradle task 和 plugin 使用及开发 了解 android gradle plugin 的使用看完本文可以达到什么程度了解 android gradle plugin 的构建流程 了解 android gra转载 2020-12-11 13:40:03 · 252 阅读 · 0 评论 -
转载:【Android 修炼手册】Gradle 篇 -- Gradle 的基本使用
原始链接:https://zhuanlan.zhihu.com/p/65249493【Android 修炼手册】Gradle 篇 -- Gradle 的基本使用ZYLAB已关注23 人赞同了该文章预备知识基本的 android 开发知识 了解 Android Studio 基本使用看完本文可以达到什么程度掌握 gradle 的基本使用 了解 gradle 及 android gradle plugin 了解 gradle 构建阶段及生命周期回调 掌握 T...转载 2020-12-11 13:37:52 · 124 阅读 · 0 评论 -
转载:Gradle系列之Android Gradle高级配置
原始链接:https://zhuanlan.zhihu.com/p/126329326Gradle系列之Android Gradle高级配置本篇文章主要在之前学习的基础上,从实际开发的角度学习如何对 Android Gradle 来进行自定义以满足不同的开发需求,下面是 Gradle 系列的几篇文章:Gradle系列之初识Gradle Gradle之Groovy基础篇 Gradle系列之构建脚本基础 Gradle系列之认识Gradle任务 Gradle系列之Gradle插件 Gr.转载 2020-12-10 21:49:25 · 186 阅读 · 0 评论 -
转载:Gradle系列之Android Gradle基础配置
原始链接:https://zhuanlan.zhihu.com/p/118690621Gradle系列之Android Gradle基础配置通过前面几篇文章学习了 Gradle 基础知识以及 Gradle 插件相关的知识,关于 Gradle 及其插件相关知识请先阅读下面几篇文章:Gradle系列之初识GradleGradle系列之Groovy基础篇Gradle系列之构建脚本基础Gradle系列之认识Gradle任务Gradle系列之Gradle插件Gradle系列之.转载 2020-12-10 21:11:05 · 122 阅读 · 0 评论 -
转载:Gradle系列之Android Gradle插件
原始链接:https://zhuanlan.zhihu.com/p/100099146Gradle系列之Android Gradle插件通过前面几篇文章学习了 Gradle 基础知识以及 Gradle 插件相关的知识,关于 Gradle 及其插件相关知识请先阅读下面几篇文章:Gradle系列之初识Gradle Gradle之Groovy基础篇 Gradle系列之构建脚本基础 Gradle系列之认识Gradle任务 Gradle系列之Gradle插件 Gradle系列之Java G.转载 2020-12-09 21:28:41 · 93 阅读 · 0 评论 -
转载:Gradle系列之Java Gradle插件
原始链接:https://zhuanlan.zhihu.com/p/98374375Gradle系列之Java Gradle插件上篇文章中了解了 Gradle 插件相关知识以及如何自定义一个 Gradle 插件,为方便理解可以先阅读下面几篇文章:Gradle系列之初识GradleGradle系列之Groovy基础篇Gradle系列之构建脚本基础Gradle系列之认识Gradle任务Gradle系列之Gradle插件本篇文章主要来学习 Java Gradle 插件相关的.转载 2020-12-09 20:25:36 · 145 阅读 · 0 评论 -
转载:Gradle系列之Gradle插件
原始链接:https://zhuanlan.zhihu.com/p/97736873Gradle系列之Gradle插件前面几篇文章学习了 Gradle 基础知识、Groovy 以及 Gradle 任务,可以先阅读前面几篇文章了解 Gradle 相关知识:Gradle系列之初识GradleGradle系列之Groovy基础篇Gradle系列之构建脚本基础Gradle系列之认识Gradle任务本篇文章主要介绍 Gradle 插件,Gradle 内置了很多常用的插...转载 2020-12-09 19:30:51 · 340 阅读 · 0 评论 -
转载:Gradle系列之认识Gradle任务
原始链接:https://zhuanlan.zhihu.com/p/97271560Gradle系列之认识Gradle任务前面几篇学习了 Gradle 构建任务的基础知识,了解了 Project 和 Task 这两个概念,建议先阅读前面几篇文章:Gradle系列之初识Gradle系列之Groovy基础篇Gradle系列之构建脚本基础Gradle 的构建工作是有一系列的 Task 来完成的,本文将针对 Task 进行详细介绍,本文主要内容如下:多种方式创建任务 多种方式.转载 2020-12-09 17:07:39 · 210 阅读 · 0 评论 -
转载:Gradle系列之构建脚本基础
原始链接:https://zhuanlan.zhihu.com/p/96862945Gradle系列之构建脚本基础前面两篇文章分别介绍了 Gradle 基础知识以及 Groovy 相关基础知识,这也是学习 Gradle 所必需了解的,文章链接如下::Gradle系列之初识GradleGradle系列之Groovy基础篇本文将对 Gradle 整体进行了介绍和学习,了解了 Task、Project 等相关概念以及对使用 Gradle 来构建项目的一些常用操作,主要内容如...转载 2020-12-09 14:58:28 · 117 阅读 · 0 评论 -
转载:Gradle系列之Groovy基础篇
原始链接:https://zhuanlan.zhihu.com/p/95404173Gradle系列之Groovy基础篇原文首发于微信公众号:躬行之(jzman-blog),欢迎关注交流!上一篇学习了 Gradle 的入门知识,Gradle 基于 Groovy,今天学习一下 Groovy 的基础知识,Groovy 是基于 JVM 虚拟机的一种动态语言,语法与 Java 语法类似,Groovy 完全兼容 Java,每个 Gradle 文件都是一个 Groovy 脚本文件,Gradle ..转载 2020-12-09 14:45:13 · 185 阅读 · 0 评论 -
spark 集群模式执行命令出错Connection refused的解决办法
用spark HA集群的模式来执行命令,出错如下(此处隐去真实的ip地址,以x.x.x.x替换):20/12/04 20:01:38 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master node02:7077org.apache.spark.SparkException: Exception thrown in awaitResult at org.apache.spark.rpc.RpcTimeout$$a...原创 2020-12-04 20:12:15 · 2408 阅读 · 0 评论 -
学习笔记:spark角色介绍
学习笔记:spark角色介绍Spark角色介绍Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。Spark架构图如下:Spark架构使用了分布式计算中master-slave模型,master是集群中含有master进程的节点,slave是集群中含有worker进程的节点。Driver Program :运⾏main函数并且新建SparkContext的程序。 Ap..原创 2020-12-04 18:35:12 · 288 阅读 · 1 评论 -
学习笔记:spark概述
学习笔记:spark概述Spark概述1什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。2为什么要学Spa...原创 2020-12-04 16:22:51 · 112 阅读 · 0 评论