这事儿就很秃然-CSDN博客

原创 MyBatis基础学习(1)—配置文件及测试

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例

2021-06-06 15:44:33 407

原创 SparkSQL—RDD、DataFrame、DataSet关系与转换

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录1. 关于 SparkSQL1.1 概念1.2 特点1.3 RDD、DataFrame、DataSet2、SparkSQL 核心编程2.1 DataFrame2.1.1 创建 DataFrame二、使用步骤1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键

2021-03-31 08:50:59 558

原创 JDBC(1)—Mysql数据库的增删改查(工具类通用)

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、数据库的连接二、数据库的CRUD(增删改查)创建工具类通用的增删改1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示

2021-03-13 21:52:18 762

原创 Windows远程访问不了Centos7创建的docker中容器tomcat的首页(404报错)

系列文章目录本文解决Windows远程访问不了Centos7创建的docker中容器tomcat的首页(404报错)参考：https://blog.csdn.net/weixin_39630880/article/details/111911555提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录版本信息分析与解决方法分析解决方法总结版本信息centos 7docker 20.10.4tomcat 9.0.41用阿里云镜像，拉取的最新版本提示：以

2021-03-06 13:38:57 223

原创 HIve函数—窗口函数

HIve函数—窗口函数本文记录了hive中窗口函数的使用及一些简单案例文章目录HIve函数—窗口函数1. 概述2. 相关函数说明2. 简单案例2.1 数据准备2.3 建表、导入数据3. 完成需求3.1 查询在2017年4月份购买过的顾客及`总人数`3.2 查询顾客的购买明细及月购买总额3.3 将cost按照日期进行累加3.4 查询顾客上次的购买时间(lag、lead函数)3.5 查询前20%时间的订单信息(ntile函数)4. 其它函数案例(限定数据集)5. Rank函数总结提示：以下是本篇文章正文

2021-02-23 22:58:29 330

原创 Hive1.2.1(环境搭建-图文详解) + Hadoop-2.6.5(已搭建好)

Hadoop-2.6.5 + Hive1.2.1提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop-2.6.5 + Hive1.2.1前言一、安装(建议全程切换到root权限操作)1.1 解压缩修改文件Hive基本操作2. MySql安装2.1 安装包准备2.2．安装MySql服务器2.3 安装MySql客户端2.4 MySql中user表中

2021-02-20 21:20:24 533

原创 Spark—三大数据结构之广播变量

Spark—三大数据结构之广播变量本文记录了Spark三大数据结构中广播变量的相关知识文章目录Spark—三大数据结构之广播变量前言1、实现原理2、广播变量的使用3. 为什么使用广播变量总结前言Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量提示：以下是本篇文章正文内容1、实现原理广播变量用来高效分发较大的对象。向所有工

2021-02-18 21:45:18 598 1

原创 Spark—三大数据结构之累加器

Spark—累加器本文记录了Spark三大数据结构中累加器的相关知识文章目录Spark—累加器前言1、实现原理2、累加器的实现2.1 系统累加器2.2 自定义累加器(WordCount)总结前言Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：RDD : 弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量提示：以下是本篇文章正文内容，下面案例可供参考1、实现原理累加器用来把 Execu

2021-02-18 19:57:06 519

原创 RDD 的依赖和持久化

RDD 的依赖和持久化本文记录的知识点为RDD 的依赖和持久化的实现文章目录RDD 的依赖和持久化RDD 的血缘和依赖关系血缘关系依赖关系RDD 持久化与容错(checkpoint)RDD cache() & persist() 方法缓存RDD CheckPoint 检查点cache& persist & checkpoint 三者的区别与小结总结提示：以下是本篇文章正文内容，下面案例可供参考RDD 的血缘和依赖关系血缘关系多个连续的RDD的依赖关系，称之为血缘关系

2021-02-18 17:03:45 261

原创 RDD 序列化

RDD 序列化我们为了区分RDD的方法和scala集合对象的方法，所以把RDD的方法称为算子，这两者主要区别是：集合对象的方法同一个节点的内存中完成的RDD的方法可以将计算逻辑发送到Executor端（分布式节点）实现分布式处理但要注意的是：从计算的角度, RDD的算子外部的操作都是在Driver端执行的，而算子内部的逻辑代码是在Executor端执行，我们可以通过简单示例，外部内部以及序列化的联系提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录RDD 序列化前言

2021-02-18 10:12:01 1029

原创 Spark—常用的RDD行动算子

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1. reduce2. collect3. count4. first5. take6. takeOrdered7. aggregate8. fold9. countByKey10. save 相关算子11. foreach总结前言提

2021-02-18 10:11:25 522

原创 Spark—常用的RDD转换算子

Spark—常用的RDD转换算子提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，

2021-02-08 22:22:42 642

原创 Java — 随机生成10条，长度不超过10，并且不重复的字符串(A-Z)(a-z)(0-9)

Java — 随机生成10条，长度不超过10，并且不重复的字符串(A-Z)(a-z)(0-9)随机生成10条，长度不超过10，并且不重复的字符串(A-Z)(a-z)(0-9)package Collection_MapDemo;import java.util.ArrayList;import java.util.List;import java.util.Random;/** * @author junxiang * @create 2021/1/13 */public class

2021-02-05 22:13:12 724

原创 Spark—关于RDD的并行度和分区(Local环境下测试)

Spark—关于RDD的并行度和分区本文将会跟大家一起简单探讨Spark 中RDD的并行度和分区文章目录Spark—关于RDD的并行度和分区前言一、并发、并行和并行度二、分区1. 从集合（内存）中创建 RDD时的分区规则2.spark 读取文件数据的分区规则总结前言默认情况下，Spark 可以将一个作业切分多个任务后，发送给 Executor 节点并行计算，而能够并行计算的任务数量我们称之为并行度。这个数量可以在构建 RDD 时指定。切记，这里的并行执行的任务数量(Executor计算节点执行的

2021-02-05 22:11:31 1961 1

原创 Spark—RDD的创建(Local环境)