2021年12月_Shockang

原创 Spark SQL functions.scala 源码解析（七）String functions （基于 Spark 3.3.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）Spark SQL functions

2021-12-28 22:41:35 4415 6

原创 Spark SQL functions.scala 源码解析（六）Misc functions （基于 Spark 3.3.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）Spark SQL functions

2021-12-27 22:06:17 4635 2

原创 Spark RDD 论文详解（四）表达 RDDs

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解（一）摘要和介绍Spark RDD 论文详解（二）RDDsSpark RDD 论文详解（三）Spark 编程接口Spark RDD 论文详解（四）表达 RDDsSpark RDD 论文详解（五）实现Spark RDD 论文详解（六）评估Spark RDD 论文详解

2021-12-26 14:03:22 3500 2

原创 Spark RDD 论文详解（三）Spark 编程接口

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解（一）摘要和介绍Spark RDD 论文详解（二）RDDsSpark RDD 论文详解（三）Spark 编程接口Spark RDD 论文详解（四）表达 RDDsSpark RDD 论文详解（五）实现Spark RDD 论文详解（六）评估Spark RDD 论文详解

2021-12-26 13:42:30 4666 2

原创使用 Spark GraphX 实现 PageRank 算法

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系关联Spark RDD 论文详解（三）Spark 编程接口正文简介GraphX 提供了静态和动态 PageRank 的实现方法，这些方法在 PageRank 对象中。静态的 PageRank 运行固定次数的迭代，而动态的 PageRank 一直运行直到收敛为止。数据GraphX 源码中提供了一个

2021-12-26 13:40:30 3718

原创使用 Spark MLlib 实现线性回归

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录模型的创建与使用第 1 步，数据准备。在 MLlib 中， LinearRegressionWithSGD 需要一个 LabeledPoint 类型的 RDD 作为训练集。训练集中 label 字段的值可以是任意实数。第 2 步，训练模型。LinearRegressionWithSGD 伴生对

2021-12-26 12:08:38 4703 1

原创 Spark SQL functions.scala 源码解析（五）Math Functions （基于 Spark 3.3.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）Spark SQL functions

2021-12-21 23:35:58 3034 1

原创 Spark SQL functions.scala 源码解析（四）Non-aggregate functions （基于 Spark 3.3.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）Spark SQL functions

2021-12-21 23:33:38 2945 1

原创 Spark RDD 论文详解（二）RDDs

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解（一）摘要和介绍Spark RDD 论文详解（二）RDDsSpark RDD 论文详解（三）Spark 编程接口Spark RDD 论文详解（四）表达 RDDsSpark RDD 论文详解（五）实现Spark RDD 论文详解（六）评估Spark RDD 论文详解

2021-12-16 22:24:23 5662

原创 Spark RDD 论文详解（一）摘要和介绍

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解（一）摘要和介绍Spark RDD 论文详解（二）RDDsSpark RDD 论文详解（三）Spark 编程接口Spark RDD 论文详解（四）表达 RDDsSpark RDD 论文详解（五）实现Spark RDD 论文详解（六）评估Spark RDD 论文详解

2021-12-16 22:18:16 6195

原创 Spark SQL functions.scala 源码解析（三）Window functions （基于 Spark 3.3.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）Spark SQL functions

2021-12-13 22:17:25 3937 3

原创 Kubernetes 中的 Pod 是什么？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文Pod资源对象是一种集合了一到多个应用容器、存储资源、专用IP及支撑容器运行的其他选项的逻辑组件。换言之， Pod 代表着 Kubernetes 的部署单元及原子运行单元，即一个应用程序的单一运行实例，它通常由共享资源且关系紧密的一个或多个应用容器组成。Kubernetes 的网络模型要求其各 Po

2021-12-12 23:42:30 3865

原创 Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）Spark SQL functions

2021-12-12 22:50:53 4717 1

原创 Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析（一）Sort functions （基于 Spark 3.3.0）Spark SQL functions.scala 源码解析（二）Aggregate functions（基于 Spark 3.3.0）Spark SQL functions

2021-12-07 22:42:37 3275 1

原创 Spark SQL 内置函数（六）Window Functions（基于 Spark 3.2.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文cume_dist()描述计算值相对于分区中所有值的位置。实践dense_rank()描述计算值组内某个值的排名。结果是 1 加上先前分配的排名值。与函数排名不同，dense_rank不会在排名序列中产生间隙。实践lag(input[, offset[, default]])描述

2021-12-05 18:41:05 10145 1

原创 Spark SQL 内置函数（五）Aggregate Functions（基于 Spark 3.2.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文any(expr)源码描述如果至少一个“expr”值为真，则返回true。实践SELECT any(col) FROM VALUES (true), (false), (false) AS tab(col);+--------+|any(col)|+--------+| true|

2021-12-04 22:12:57 5396

原创 Spark SQL 内置函数（四）JSON Functions（基于 Spark 3.2.0）

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文Spark 官方文档中关于 JSON Functions 的内容太简单了，根本不足以满足生产开发的需求，这里我对其内容进行了扩充，后续我也会将部分内容提交给官方 doc。from_json(jsonStr, schema[, options])描述返回基于给定 jsonStr 和 schema

2021-12-03 14:38:43 5373

CDH 5.14.2 安装包第三部分

CDH5.14.2 安装包第二部分

CDH 5.14.2 安装包第一部分

Apache Kylin 4.0.2 安装包

Apache Doris 1.1.2 BE 安装包

Apache Doris 1.1.2 FE 安装包

Apache Doris 技术调研

mysql-5.7.36-el7-x86_64.tar.gz

cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz

Spark 线性回归测试数据集 lpsa.data

大数据从0到1 .pptx

spark-2.3.3.zip

elasticsearch-7.14.1-darwin-x86_64.tar

logstash-7.14.1-darwin-x86_64.tar

kibana-7.14.1-darwin-x86_64.tar

flink-1.8.1_after_compile.tar.gz

elasticsearch-analysis-ik-6.7.0.zip

elasticsearch-head-compile-after.tar.gz

mysql-community-server-8.0.24-1.el8.x86_64.rpm

mysql-community-client-8.0.24-1.el8.x86_64.rpm

mysql-community-common-8.0.24-1.el8.x86_64.rpm

mysql-community-libs-8.0.24-1.el8.x86_64.rpm

mysql-community-client-plugins-8.0.24-1.el8.x86_64.rpm

Hive3.1.2安装包

空空如也