大数据
文章平均质量分 58
人人都会的大数据
long-king
我是一名产品设计师、大数据架构师、项目管理师,擅长java、大数据、react、vue等各项技术。
展开
-
2021年Cloudera公司的CDH与HDP均无法下载
Cloudera公司最近在官网宣布:从2021年1月31日开始,所有Cloudera软件都需要有效的订阅,并且只能通过付费墙进行访问。也就是说CDH各版本都不能免费获取了。很多以前的文章、书籍中提到CDH大数据平台,都是会引用Cloudera官网下载地址,例如:https://archive.cloudera.com/p/cm5/redhat/6/x86_64/cm/RPM-GPG-KEY-cloudera现在开始要输入账号密码认证了。用Cloudera的账号密码的话,会得到如下失败信息:原创 2021-02-18 09:04:09 · 8081 阅读 · 4 评论 -
Spark shuffle 种类和shuffleManager源码分析
1、ShuffleManager管理接口在spark2.x版本中ShuffleManager的实现类只剩下SortShuffleManager。2、SortShuffleManager实现类接下来,看看shuffle注册器的实现:红框中标出的是Shuffle处理器。找到顶级的ShuffleHandle抽象类:直接的实现类则为BaseShuffleHandle:BaseShuffleHandle有两个子类:SerializedShuffleHandle 和 By原创 2021-01-12 17:59:54 · 256 阅读 · 0 评论 -
Spark 宽窄依赖 源码分析
1、最顶级类-org.apache.spark.Dependency抽象类Dependency,继承了序列化类,定义了rdd方法。Dependency 有两个实现类:抽象类NarrowDependency(窄依赖)和ShuffleDependency(宽依赖)。2、窄依赖:NarrowDependencyNarrowDependency也是抽象类,提供获取getParents 和 rdd 方法,构造方法需要传入rdd。rdd方法默认返回传入的rdd,getParents方法需要传入分区.原创 2021-01-12 16:50:48 · 233 阅读 · 0 评论 -
Spark-Shell 详解-源码分析
第一步:安装spark略。第二步:下载saprk源码下载地址:https://github.91chifun.workers.dev//https://github.com/apache/spark/archive/v2.4.0.zip下载解压到指定目录,并在idea中导入:注意:idea要配置jdk,并安装scala插件,配置scala支持第三步:源码解读项目源码结构:3.1 启动脚本-源分析首先查看bin目录下的spark-shell脚本:图中原创 2021-01-12 14:25:50 · 518 阅读 · 0 评论 -
Apache Flume 源码解析
第一步:源码下载进入官网:http://flume.apache.org/index.html进入下载页面:点击下载:https://mirrors.bfsu.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-src.tar.gz第二步:加压项目,导入IDE解压到目录:导入到IDE:第三步:查看启动脚本,找到程序入口查看目录:bin/flume-ng找到启动类:org.apache.flume.no.原创 2021-01-04 16:48:03 · 1008 阅读 · 0 评论 -
Apache Nifi 入门到精通(三)自定义processor
目标:实现从restful接口读取到nifi第一步:创建processor项目结构创建maven项目项目名nifi-rest-bundle完成创建项目:修改 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-...原创 2021-01-04 11:56:09 · 1576 阅读 · 5 评论 -
原创 Apache Nifi 入门到精通(二)源码分析
第一步:源码分析源码结构介绍启动脚本nifi-framework-bundle和nifi-standard-bundle是最核心的bundule模块,项目主要的启动脚本就在nifi-framework-bundle>nifi-framework>nifi-resource>src>main>resources>bin中启动类启动类就在启动包(nifi-bootstrap)中,通过匹配不同的参数执行启动、停止等操作。接下来,我们来看"star.原创 2020-12-30 16:17:11 · 1219 阅读 · 0 评论 -
Apache Nifi 入门到精通(一)
开始--学习步骤:Apache Nifi 入门到精通(一)----概念、下载、编译、安装部署、测试与试用 Apache Nifi 入门到精通(二)---- 设计原理与源码解读 Apache Nifi 入门到精通(三)---- 自定义插件第一步:了解Apche NiFi概念 简介 NiFi 最早是美国国家安全局(NSA)内部使用的工具,用来投递海量的传感器数据,后来NSA将其捐献给apache 基金会开源。Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理..原创 2020-12-28 17:38:28 · 2767 阅读 · 2 评论 -
数仓构建与应用模型图
原创 2020-11-24 15:46:57 · 229 阅读 · 0 评论 -
多维时空数据库--记录世间一切数据
多维时空数据库世界所有的物质和能量都可以记录为数据,通过构建一个完善的数据库,将能够记录和推演时间万事万物的发展变化,也能够检索世界一切的历史变化,现提出多维时空数据库概念,共搭建探讨和学习。核心概念由于一切的事物和能量细化到一个微小的点和单元量,都可以通过多个维度和值量信息标识。所以多维时空数据库的核心数据结构可一理解为维度和值量。维度:在四维时空中,标识一个点,可以通过如下维度表示,时间、空间坐标(x/y/z)、质点类型。值量:同样针对上述的一个点,就指的是各个维度值的集合。存储原创 2020-10-07 14:45:37 · 711 阅读 · 0 评论 -
数据应用流水线-数据应用
软件系统主要包括:算法与数据。一切的根源都来源于数据,抛开业务流程,软件全生命周期只考虑一件事--数据存储于应用。上图就是一个数据应用的全流程结构图。数据源:代表着底层的数据存储。数据接入:数据总线,支持对底层各类数据源的读写。数据计算:支持数据的分布式批量加工计算。数据服务:支持对数据加工后的数据提供API接口服务。数据消费:实现数据的应用。...原创 2020-09-29 10:26:07 · 1082 阅读 · 0 评论 -
windows docker 安装 apache superset数据可视化
第一步:下载镜像docker pull amancevice/superset第二步:后台启动docker run -d -p 8088:8088 -v F:/containers/superset/data:/home/superset amancevice/superset第三步:查看docker container iddocker ps第四步:进入docker镜像docker exec -it 9a83a8ead19b /bin/bash第五步:数据库初原创 2020-11-20 10:49:47 · 1509 阅读 · 2 评论 -
Spark的bug--Column featuresmust be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7
源码:spark异常如下:Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: Column features must be of type org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 but was actually org.apach...原创 2018-07-02 14:39:22 · 2699 阅读 · 0 评论