自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Shockang的博客

大数据开发学习经验分享

  • 博客(17)
  • 资源 (17)
  • 收藏
  • 关注

原创 Spark SQL functions.scala 源码解析(七)String functions (基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)Spark SQL functions

2021-12-28 22:41:35 4415 6

原创 Spark SQL functions.scala 源码解析(六)Misc functions (基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)Spark SQL functions

2021-12-27 22:06:17 4635 2

原创 Spark RDD 论文详解(四)表达 RDDs

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解(一)摘要和介绍Spark RDD 论文详解(二)RDDsSpark RDD 论文详解(三)Spark 编程接口Spark RDD 论文详解(四)表达 RDDsSpark RDD 论文详解(五)实现Spark RDD 论文详解(六)评估Spark RDD 论文详解

2021-12-26 14:03:22 3500 2

原创 Spark RDD 论文详解(三)Spark 编程接口

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解(一)摘要和介绍Spark RDD 论文详解(二)RDDsSpark RDD 论文详解(三)Spark 编程接口Spark RDD 论文详解(四)表达 RDDsSpark RDD 论文详解(五)实现Spark RDD 论文详解(六)评估Spark RDD 论文详解

2021-12-26 13:42:30 4666 2

原创 使用 Spark GraphX 实现 PageRank 算法

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系关联Spark RDD 论文详解(三)Spark 编程接口正文简介GraphX 提供了静态和动态 PageRank 的实现方法,这些方法在 PageRank 对象中。静态的 PageRank 运行固定次数的迭代,而动态的 PageRank 一直运行直到收敛为止。数据GraphX 源码中提供了一个

2021-12-26 13:40:30 3718

原创 使用 Spark MLlib 实现线性回归

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录模型的创建与使用第 1 步,数据准备。在 MLlib 中, LinearRegressionWithSGD 需要一个 LabeledPoint 类型的 RDD 作为训练集。训练集中 label 字段的值可以是任意实数。第 2 步,训练模型。LinearRegressionWithSGD 伴生对

2021-12-26 12:08:38 4703 1

原创 Spark SQL functions.scala 源码解析(五)Math Functions (基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)Spark SQL functions

2021-12-21 23:35:58 3034 1

原创 Spark SQL functions.scala 源码解析(四)Non-aggregate functions (基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)Spark SQL functions

2021-12-21 23:33:38 2945 1

原创 Spark RDD 论文详解(二)RDDs

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解(一)摘要和介绍Spark RDD 论文详解(二)RDDsSpark RDD 论文详解(三)Spark 编程接口Spark RDD 论文详解(四)表达 RDDsSpark RDD 论文详解(五)实现Spark RDD 论文详解(六)评估Spark RDD 论文详解

2021-12-16 22:24:23 5662

原创 Spark RDD 论文详解(一)摘要和介绍

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark RDD 论文详解(一)摘要和介绍Spark RDD 论文详解(二)RDDsSpark RDD 论文详解(三)Spark 编程接口Spark RDD 论文详解(四)表达 RDDsSpark RDD 论文详解(五)实现Spark RDD 论文详解(六)评估Spark RDD 论文详解

2021-12-16 22:18:16 6195

原创 Spark SQL functions.scala 源码解析(三)Window functions (基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)Spark SQL functions

2021-12-13 22:17:25 3937 3

原创 Kubernetes 中的 Pod 是什么?

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文Pod资源对象是一种集合了一到多个应用容器、存储资源、专用IP及支撑容器运行的其他选项的逻辑组件。换言之, Pod 代表着 Kubernetes 的部署单元及原子运行单元,即一个应用程序的单一运行实例,它通常由共享资源且关系紧密的一个或多个应用容器组成。Kubernetes 的网络模型要求其各 Po

2021-12-12 23:42:30 3865

原创 Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)Spark SQL functions

2021-12-12 22:50:53 4717 1

原创 Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系目录Spark SQL functions.scala 源码解析(一)Sort functions (基于 Spark 3.3.0)Spark SQL functions.scala 源码解析(二)Aggregate functions(基于 Spark 3.3.0)Spark SQL functions

2021-12-07 22:42:37 3275 1

原创 Spark SQL 内置函数(六)Window Functions(基于 Spark 3.2.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文cume_dist()描述计算值相对于分区中所有值的位置。实践dense_rank()描述计算值组内某个值的排名。结果是 1 加上先前分配的排名值。与函数排名不同,dense_rank不会在排名序列中产生间隙。实践lag(input[, offset[, default]])描述

2021-12-05 18:41:05 10145 1

原创 Spark SQL 内置函数(五)Aggregate Functions(基于 Spark 3.2.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文any(expr)源码描述如果至少一个“expr”值为真,则返回true。实践SELECT any(col) FROM VALUES (true), (false), (false) AS tab(col);+--------+|any(col)|+--------+| true|

2021-12-04 22:12:57 5396

原创 Spark SQL 内置函数(四)JSON Functions(基于 Spark 3.2.0)

前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文Spark 官方文档中关于 JSON Functions 的内容太简单了,根本不足以满足生产开发的需求,这里我对其内容进行了扩充,后续我也会将部分内容提交给官方 doc。from_json(jsonStr, schema[, options])描述返回基于给定 jsonStr 和 schema

2021-12-03 14:38:43 5373

CDH 5.14.2 安装包第三部分

CDH 5.14.2 安装包第三部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

CDH5.14.2 安装包第二部分

CDH5.14.2 安装包第二部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

CDH 5.14.2 安装包第一部分

CDH5.14.2 安装包第一部分,建议配合我的博客——《CDH 5.14.2 安装部署指南》一同使用。

2022-10-31

Apache Kylin 4.0.2 安装包

Apache Kylin 4.0.2 安装包

2022-10-17

Apache Doris 1.1.2 BE 安装包

Apache Doris 1.1.2 BE 安装包,建议配合我的博客——《Apache Doris 安装部署指南》一起使用

2022-10-02

Apache Doris 1.1.2 FE 安装包

Apache Doris 1.1.2 FE 安装包,建议配合我的博客——《Apache Doris 安装部署指南》一起使用

2022-10-02

Apache Doris 技术调研

Apache Doris 技术调研,建议配合我的同名博客来一同研究学习。

2022-09-26

mysql-5.7.36-el7-x86_64.tar.gz

mysql 5.7.36 linux 安装包

2022-08-08

cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz

cloudera-manager-centos7-cm5.14.2_x86_64.tar.gz 建议配合我的博客一起使用——《Cloudera 平台搭建》

2022-08-01

Spark 线性回归测试数据集 lpsa.data

参考个人博客《Spark RDD 论文详解(三)Spark 编程接口》了解详情

2021-12-26

大数据从0到1 .pptx

大数据入门知识,面向纯大数据新手。主要关于为什么学习大数据、什么是大数据、大数据有哪些职业方向、大数据是如何发展起来的以及大数据该如何学习。

2021-11-01

spark-2.3.3.zip

Spark 2.3.3 安装包,配合本人博客《Spark 2.3 安装部署》一同使用

2021-10-16

elasticsearch-7.14.1-darwin-x86_64.tar

elasticsearch Mac

2021-09-12

logstash-7.14.1-darwin-x86_64.tar

logstash Mac

2021-09-12

kibana-7.14.1-darwin-x86_64.tar

kibana

2021-09-12

flink-1.8.1_after_compile.tar.gz

Flink 1.8.1 编译后的源码包

2021-08-22

elasticsearch-analysis-ik-6.7.0.zip

elasticsearch 中文分词

2021-08-22

elasticsearch-head-compile-after.tar.gz

编译后的 elasticsearch-head 源码包,建议配合安装教程《如何安装 elasticsearch-head 插件?》一同使用

2021-08-22

mysql-community-server-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-client-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-common-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-libs-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

mysql-community-client-plugins-8.0.24-1.el8.x86_64.rpm

结合博客使用——[centos 8 安装 mysql 8](https://blog.csdn.net/Shockang/article/details/118061406)

2021-06-20

Hive3.1.2安装包

建议配合我的博客一同使用——[Hive 3.x 安装部署教程](https://blog.csdn.net/Shockang/article/details/118062872)

2021-06-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除