![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
BigData_Hubert
never say never
展开
-
Spark GraphX中的pregel 函数(步骤图解)
spark 系列Spark 核心原理及运行架构Spark RDD详解Spark 常用算子大全Spark SQL 详解Spark GraphX 图计算入门基础Spark PageRank 算法Spark GraphX中的pregel APISpark GraphX pregelspark 系列前言pregel API概述源码参数分析案例案例一:求最短距离案例二:求出图中最小值前言在上一篇博客已经为大家介绍了Spark GraphX图计算中的PageRank 算法。本篇博客将为大原创 2020-10-15 10:26:43 · 3186 阅读 · 2 评论 -
PageRank 算法(从原理到实现)
spark 系列Spark 核心原理及运行架构Spark RDD详解Spark 常用算子大全Spark SQL 详解Spark GraphX 图计算入门基础Spark PageRank 算法——从原理到实现Spark PageRankspark 系列前言算法来源算法原理排名泄露排名下沉排名上升算法证明PR值计算方法幂迭代法特征值法代数法案例演示PageRank算法的优缺点前言在上一篇博客已经为大家介绍了Spark GraphX图计算的入门基础。本篇博客将为大家详细介绍了 Spa原创 2020-10-14 10:59:43 · 1568 阅读 · 0 评论 -
Spark GraphX图计算入门基础
spark 系列Spark 核心原理及运行架构Spark RDD详解Spark 常用算子大全Spark SQL 详解Spark GraphX 图计算入门基础Spark GraphX图计算入门基础spark 系列前言Spark GraphX 简介GraphX应用背景GraphX 核心APIGraphX 特点Spark GraphX 实现原理两种视图存储模式计算模式GraphX实例前言前面几篇博客已经为大家介绍了 Spark 的基础框架、RDD、核心 SparkCore 和 Spark原创 2020-10-13 19:54:17 · 1595 阅读 · 2 评论 -
Spark SQL详解
spark 系列Spark 核心原理及运行架构Spark RDD详解Spark 常用算子大全Spark SQL 详解Spark SQLspark 系列前言Spark SQL 简介什么是Spark SQL?Spark SQL 的由来Spark SQL 的特点Spark SQL 框架结构Spark SQL的核心 Catalyst优化器(了解)Spark SQL 常用APISparkContext 与 SparkSessionDataFrame 与 DataSetDataFrameDataSet参原创 2020-10-10 16:38:17 · 1954 阅读 · 0 评论 -
Spark RDD详解
spark 系列Spark 核心原理及运行架构Spark RDD详解Spark 常用算子大全Spark RDDspark 系列前言RDD概述什么是 RDDRDD 的属性RDD的特点RDD编程RDD 创建方式RDD 算子操作RDD 函数传递RDD依赖关系RDD缓存前言看了前面的一篇 Spark 博客,相信大家对于 Spark 的基本概念、运行框架以及工作原理已经搞明白了。本篇博客将为大家详细介绍了 Spark 程序的核心,也就是弹性分布式数据集(RDD)。但到底什么是 RDD,它是做什原创 2020-09-29 15:30:12 · 1445 阅读 · 0 评论 -
spark 核心原理及运行架构
spark 系列spark 核心原理及运行架构spark 常用算子大全spark 核心原理及运行架构spark 系列前言Spark 简介Spark 发展史Spark是什么?Spark 生态及运行原理spark 生态圈Spark的主要特点Spark 与 Hadoop 对比的优势Spark使用情况常见问题spark运行架构spark基础运行架构图:Spark 运行流程spark 调优策略参考文章前言本篇博客将为大家带来 spark 核心原理和运行架构的介绍。这是 spark 系列的第一篇博客原创 2020-09-28 17:17:49 · 1428 阅读 · 1 评论 -
spark 常用算子大全(分类详细,图片解析)
scala 系列spark 常用算子大全scala 常用算子大全scala 系列前言思维导图前言上一篇博客已经给大家介绍了 scala OOP, 掌握了OOP 的知识后,就已经算是进入 scala 的门了。scala OOP基础是 spark 和 flink 的基础。本篇博客将为大家带来 scala 高级扩展的介绍。主要包括模式匹配和正则表达式,此外还有异常处理、注解和高级类型的简单了解。思维导图...原创 2020-09-25 12:10:09 · 6869 阅读 · 3 评论 -
scala 高级扩展详解(模式匹配和正则表达式)
scala 系列scala 入门基础scala 数组集合scala 143个数组函数大全scala 函数scala OOPscala 高级扩展scala 高级扩展scala 系列前言思维导图模式匹配简单模式匹配匹配类型守卫匹配样例类匹配集合变量声明正则匹配正则表达式匹配分割替换查找注解(Annotation)前言上一篇博客已经给大家介绍了 scala OOP, 掌握了OOP 的知识后,就已经算是进入 scala 的门了。scala OOP基础是 spark 和 flink 的基础。原创 2020-09-18 11:06:08 · 952 阅读 · 0 评论 -
scala OOP
scala 系列scala 入门基础scala 数组集合scala 143个数组函数大全scala 函数scala OOPscala OOPscala 系列前言思维导图类和对象创建类和对象访问修饰符构造器继承定义override 和 super类型判断前言上一篇博客已经给大家介绍了 scala 函数和方法, 有了 scala 函数和方法的基础再去学习 OOP,会变得无往而不利。本篇博客将为大家带来 scala OOP的介绍。scala OOP 和 java OOP有很多相似之处,原创 2020-09-17 19:57:53 · 753 阅读 · 0 评论 -
scala 函数详解(含思维导图)
scala 系列scala 入门基础scala 数组集合scala 143个数组函数大全scala 函数scala OOPscala 方法和函数scala 系列前言方法方法定义方法参数方法调用方式函数Java Lambda表达式Java8 四大内置函数式接口(了解)函数的定义参考文章前言前几篇博客已经给大家介绍了 scala 入门基础和数组集合的,相信大家都已经对 scala 有了更进一步的了解。本篇博客将为大家带来 scala 方法和函数的介绍。本篇博客将为大家带来 scala原创 2020-09-16 14:59:30 · 2341 阅读 · 0 评论 -
scala 数组集合(思维导图,初级必备)
scala 系列scala 入门基础scala 数组集合scala 143个数组函数大全scala 函数scala OOPscala 数组集合scala 系列前言方法方法定义方法参数方法调用方式数组Array不可变数组可变数组数组方法元组Tuple元组定义访问元组列表List不可变列表可变列表列表方法集Set不可变集可变集集方法映射Map不可变Map可变Map映射方法常用集合前言本篇博客为大家带来的是 scala 入门简介和编程基础,主要涉及scala 变量、分支和循环的基础知识,原创 2020-09-14 22:53:17 · 533 阅读 · 0 评论 -
scala 入门基础(思维导图,基础详细,小白必看)
scala 系列scala 入门基础scala 143个数组函数大全scala 入门基础scala 系列前言scala 简介scala 源自 Javascala 的优势scala 与 java 对比实例变量声明变量使用类型推断来定义变量使用类型别名定义变量惰性赋值字符串使用双引号使用插值表达式使用三引号数据类型Scala与Java有着相同的原始数据类型Scala数据类型层次结构运算符分支表达式循环for 循环while 循环 和 do -while 循环循环跳转语句方法方法定义方法参数方法调用方式原创 2020-09-14 18:00:17 · 1625 阅读 · 2 评论 -
scala 数组函数大全(143个1个不漏,全面案例详解)
scala系列scala 143个数组函数大全scala 数组函数大全scala系列前言一、scala 数据简介二、数组函数汇总前言本篇博客为大家带来的是 scala 所有(没错,没有看错,就是所有)数组函数的案例详解大全。scala 数组函数是 scala 能够实现代码飘逸的核心基础所在,因此在 scala 入门的时候必须强记下来,没有任何商量的余地。相信大家在看完的数组函数汇总后,都能够代码敲的飘逸!“so easy”![在这里插入图片描述](https://img-blog.原创 2020-09-09 17:54:26 · 3595 阅读 · 2 评论 -
HBase 工作机制及读写流程
HBase一图看懂 HBase 架构HBase 最常用的shell操作HBase 工作机制及读写流程HBase 工作机制及读写流程HBase前言HBase 工作机制Master工作机制Master 上线Master下线RegionServer 工作机制Region 管理region server上线region server下线HBase 读写流程HBase 读流程HBase 写流程flush 机制Compact合并操作Region Split操作前言本篇博客,为大家梳理 HBase 工原创 2020-09-04 15:36:33 · 687 阅读 · 0 评论 -
一图看懂 HBase 架构(全面详细)
HBase一图看懂 HBase 架构HBase 最常用的shell操作HBase 架构HBase前言HBase 简介什么是HBaseHBase 特点NoSQL与RDBMS对比HBase生态圈技术HBase 架构组件前言本篇博客,为大家梳理 HBase 的组件架构和底层原理。希望能对 HBase 感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。HBase 简介什么是HBaseHBase是 Google 的 Bigtable原创 2020-09-03 19:49:29 · 7087 阅读 · 1 评论 -
HBase 最常用的shell操作(基础详细,小白必看)
系列文章目录一图看懂 HBase 架构HBase 最常用的shell操作HBase 最常用的shell操作系列文章目录前言基础命令操作高级管理操作总结前言本篇博客,为大家梳理 HBase 最常用的 shell 操作。需要的小伙伴们可以自行其食!基础命令操作高级管理操作代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimp原创 2020-09-01 23:11:48 · 10290 阅读 · 1 评论 -
Hadoop系列(四)—— 人民法官 Zookeeper 详解
ZooKeeper是Google的Chubby提供的一个开源的、分布式的框架,它是Hadoop集群的管理者,同时提供一致性协调服务,就像“人民法官”一样监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终实现将简单易用的接口和性能高效、功能稳定的系统提供给用户的功能。Zookeeper主要负责存储和管理大家都关心的数据,一旦这些数据的状态发生变化,Zookeeper就会通知那些注册在Zookeeper上的服务。简单来讲就是**zookeeper=文件系统+通知机制**。Zookeeper原创 2020-09-01 08:39:19 · 3638 阅读 · 0 评论 -
Hive系列(一)—— Hive初识及基础介绍
Hive 基础Hive 简介什么是 Hive为什么使用 HiveHive 特点Hive 体系结构Hive 和 RDBMS 的对比Hive 基础Hive 数据类型Hive 简介什么是 HiveHive 是由 Facebook 实现并开源的、基于 Hadoop 的一个数据仓库工具。它可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能;其底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方原创 2020-08-29 12:06:00 · 743 阅读 · 0 评论 -
Hive系列(三)—— 性能优化及数据倾斜
在Hive使用中,数据倾斜以及解决方案,是老生常谈的问题,一直没有时间去全面的了解;最近花了一段时间,总结了hive性能优化,尤其是数据倾斜的优化如下。希望能对Hive感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。原创 2020-08-28 16:42:25 · 9548 阅读 · 1 评论 -
Hive系列(二)—— 常用函数汇总
Hive 函数比较多,之前总是随用随查,今天把常用的函数总结一下,以后方便查阅。前言Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。如图所示:Hive常用函数数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数round()#返回对a四舍五入的bigint值SELECT round(1.5) # 输出 2SELECT round(-1.5)原创 2020-08-27 23:30:24 · 804 阅读 · 0 评论 -
Hadoop系列(三)——心脏命脉 MapReduce 详解
最近花了一段时间去了解MapReduce 的工作原理:Map对数据集上的独立元素进行指定的操作,生成键值对形式中间结果;shuffle是MapReduce的心脏,对中间结果进行数据整合分区排序处理,有助于编写效率更高的mapreduce程序和hadoop调优;Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。自己画了一张流程图如下图,希望能对MapReduce感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。MapReduc原创 2020-08-24 09:12:59 · 12423 阅读 · 2 评论 -
Hadoop系列(一)——身体是革命的本钱 HDFS体系结构(NameNode、DataNode)详解
hadoop文件读取实例中yarn的作用是什么样的?要想理解hadoop文件读取的过程,除了理解YARN还需要提前了解一下hadoop 中NameNode和DataNode的原理和功能。NameNodeNameNode在内存中保存着整个文件系统(hdfs)的名字空间(namespace)和文件数据块的地址映射(Blockmap)。整个HDFS可存储的文件数受限于NameNode的内存大小。它的功能如下:NameNode负责文件元数据信息的操作以及处理客户端的请求NameNode管理HDFS文件原创 2020-08-21 15:25:47 · 7761 阅读 · 0 评论 -
Hadoop系列(二)——灵魂管理者 YARN 详解
集群资源管理器 YARNYARN 简介YARN 的组件架构ResourceManagerYARN 简介YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。YARN通过其内部的一个全局资源管理器(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaster,AM);为每个应用程序分配一个作业(Job)或者Job的有向无环图(DAG),来达到分离资源管理与作业调度/监控的原创 2020-08-21 00:05:30 · 15791 阅读 · 1 评论 -
Hadoop集群的DataNode启动不了的解决办法
关于Hadoop集群的DataNode启动不了的问题是安装Hadoop最常见的坑,下面我介绍五种方法来填坑。异常提示hadoop集群子节点目录下 jps 操作没有显示datanode的进程http://master-ip: 8088窗口下:java操作hadoop异常提示:Java.io.IOException: Cannot lock storage /usr/hadoop/tmp/dfs/name. The directory is already locked.出现上述3者情况之一,都原创 2020-08-18 22:41:10 · 3486 阅读 · 2 评论 -
深度剖析Elasticsearch核心倒排索引数据结构
Elasticsearch 简介Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。Elasticsearch 建立在全文搜索引擎 Apache Lucene™ 基础上,通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤,从而很方便的使大量数据具有搜索、分析和探索的能力。毫无疑问,Elasticsearch的底层核心是倒排索引。 Elasticsearch通过扩展服务器集群的方式,将数据以文档的形式,FST压缩的方式,分布式实时存储;同时为文件每一个字段添加倒排索引原创 2020-08-16 20:12:14 · 2348 阅读 · 0 评论