自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Stack It Up

I got money on my mind.

原创 Flink 学习 | 运行时的架构（包括一些核心概念和提交流程）

Flink 中，并行度相同的 ont to one 算子操作，可以直接连接起来形成一个大的 task 任务，这样，每个 task 会被一个线程执行，这种技术叫算子链。这种模式下，数据流维护着分区及元素的顺序。实际上，每个任务槽就表示了 Task Manager 拥有计算资源的一个固定大小的子集，用来独立执行一个一个的子任务。一个数据流在算子之间传输数据的形式可以有两种，一种是一对一的直通模式，另一种是打乱的重分区模式，这取决于算子的种类。每个算子的子任务，会根据数据传输的策略，将数据发送到不同的下游目标。

2024-02-28 11:20:46 941

原创 Flink 学习 | 在集群上的，部署模式及运行模式

Client 将作业提交给 JobManager ，JobManager 将作业分发给很多个 TaskManager 开始干活。部署模式有三种（会话模式_session，单作业模式_per_job，应用模式_application）主要区别是生命周期及资源的分配方式，以及应用的 main 方法到底在哪里执行，是客户端还是JobManager。

2024-02-22 15:07:31 442

原创 Flink 学习 | 尚硅谷课程跟学_基础理解

有状态：把流处理需要的额外数据保存成一个“状态”，然后针对该数据进行处理，并更新状态。【一种可理解为计算的中间过程，另一种可理解为数据本身（也就是给数据打标签，举个例子就是，老师上课点名，点一个人划一个名字，被点到的就被打上了已经到达的标签）】【事件时间指事件产生的时间，处理时间指进入Flink，进行处理的时间】本质上是一个分组再聚合的操作。可以用SQL语句处理无界数据。

2024-02-20 17:02:59 366

原创 Flink学习 | 基础介绍

Spark 核心是批处理，尝试在批处理之上支持流计算，那么对于它来说，像Flink这样的实时计算，就会被看成一个个微小的批处理，因此对于Spark而言，并不是真正意义上的“流处理”，而是一个个“微批次”处理。【因为数据的传递有结束，因此可以等待数据全部传递完毕再进行处理，因此不需要严格保证数据的顺序，因为所有数据抵达后，总能按正确的顺序对数据进行排列。而Flink 的核心是流处理，因此它认为即使是批处理，也可以被统一为流处理。流处理：来一个处理一个，就像是流水线工作，它是即时处理的，是一个实时的处理；

2024-02-06 10:55:55 374

原创机器学习 | CNN-softmax学习及实现

如下图所示，卷积神经网络CNN的基本结构主要有三个层，分别是和第一层为卷积层，第二层为池化层（又称降采样层或下采样层），第三四层和一二层一样，最后把池化结果拉平成一条长向量，传入到底层的全连接层中，最后输出结果。

2023-09-07 16:24:12 653

原创机器学习——几种分类器实现代码及交叉验证评估参数总结（SVC、CART、XGBoost）

分类模型参数及实现

2023-08-31 12:45:17 262

原创 Anaconda、Jupyter使用（创建虚拟环境并在Jupyter中添加内核）

参考这位博主~，写的很详细，以下主要写一些常用的操作。

2023-08-21 15:27:54 700

原创 OpenAI开源！！Whisper语音识别实战！！【环境配置+代码实现】

***** 实现 .mp4转换为 .wav文件，识别后进行关键词匹配并输出关键词出现的次数****** 完整代码实现请私信。

2023-05-19 16:55:07 900 1

原创 Django开发——初步了解 | 搭建流程|py2neo出错解决

定义模型model，模型本质上就是数据库表的布局，再附加一些元数据。

2023-05-15 12:57:24 294

原创 PySpark实战（五）——PySpark ETL实战（包括数据的抽取、转换、加载及numpy、matplotlib、pandas的综合使用）

ETL是指 Extract、Transfrom 和 Load 的简称。用来描述将数据从数据源经过抽取、转换、加载至终端的一系列处理过程。

2023-03-24 14:38:59 1892 1

原创 PySpark实战（四）——一个Spark程序（py编写，圆周率Pi的计算）

Spark程序_圆周率PI的计算

2023-03-21 13:30:06 474

原创 PySpark实战（四）——活用PySpark( DataFrames 与 Spark SQL)_Jupyter notebook中运行

DataFrames 与 Spark SQL，Spark操作、RDD操作，关联查询

2023-03-21 11:21:13 820

原创 PySpark实战（四）——共享变数（变量）的两种方法

Spark共享变数的方法操作

2023-03-20 11:30:22 155

原创 PySpark实战（三）——活用PySpark（Python基础语法复习 & 建立第一个Spark RDD & RDD的操作 [ 见PySpark_operation.ipynb文件 ]）

RDD操作，Python复习

2023-03-20 10:48:34 976

原创 PySpark实战（二）——Spark环境配置

Spark环境配置

2023-03-14 14:48:47 1418

原创 PySpark实战（一）——大数据时代及Spark

PySpark实战大数据认知

2023-03-13 14:12:01 308

原创 Hadoop学习（十）——HiveQL查询

Hive QL 查询操作

2023-03-13 11:05:55 667

原创 Hadoop学习（九）——HiveQL数据操作

装载数据导出数据操作数据

2023-03-10 09:47:13 112

原创 Hadoop学习（八）——Hive语法及操作

HiveHive数据定义Hive基础语法

2023-03-09 16:32:21 419

原创 Hadoop学习（七）——Hive

Hive 操作Hive HQL语句实践Hadoop数据分析

2023-03-07 16:02:57 611

原创 Hadooop学习（六）——数据挖掘和数据仓储——Hadoop上Hive安装（排坑版）

Hadoop环境下配置Hive

2023-03-07 09:53:17 140

原创 Hadoop学习（三）——Python框架和Hadoop Streaming

WordCount程序识别文本重要短语频率的MapReduce作业高级的MapReduce主题如何将这些主题应用于Python编写的Streaming作业中

2023-03-03 14:26:57 197

原创 Hadoop学习（二）——HDFS&YARN【Hadoop数据分析（图灵程序设计丛书）】

Hadoop的基础结构，初步认识了解HDFS和YARN。进行MapReduce作业，排坑修改，能够顺利执行。

2023-03-03 10:30:39 190

原创 Hadoop学习（一）——环境配置(特别顺利版！！！已经排坑了)

Hadoop集群搭建，特别顺利版！！！！！软件：VM Wareiso 镜像：CentOS7Hadoop 版本：Hadoop-3.3.3。

2023-03-02 13:13:11 3349 1

大数据 PySpark相关操作，PySpark-operation.ipynb文件

可以在jupyter notebook内直接打开运行，进行PySpark的操作练习

2023-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除