自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Stack It Up

I got money on my mind.

  • 博客(24)
  • 收藏
  • 关注

原创 Flink 学习 | 运行时的架构(包括一些核心概念和提交流程)

Flink 中,并行度相同的 ont to one 算子操作,可以直接连接起来形成一个大的 task 任务,这样,每个 task 会被一个线程执行,这种技术叫算子链。这种模式下,数据流维护着分区及元素的顺序。实际上,每个任务槽就表示了 Task Manager 拥有计算资源的一个固定大小的子集,用来独立执行一个一个的子任务。一个数据流在算子之间传输数据的形式可以有两种,一种是一对一的直通模式,另一种是打乱的重分区模式,这取决于算子的种类。每个算子的子任务,会根据数据传输的策略,将数据发送到不同的下游目标。

2024-02-28 11:20:46 941

原创 Flink 学习 | 在集群上的,部署模式及运行模式

Client 将作业提交给 JobManager ,JobManager 将作业分发给很多个 TaskManager 开始干活。部署模式有三种(会话模式_session,单作业模式_per_job,应用模式_application)主要区别是生命周期及资源的分配方式,以及应用的 main 方法到底在哪里执行,是客户端还是JobManager。

2024-02-22 15:07:31 442

原创 Flink 学习 | 尚硅谷课程跟学_基础理解

有状态:把流处理需要的额外数据保存成一个“状态”,然后针对该数据进行处理,并更新状态。【一种可理解为计算的中间过程,另一种可理解为数据本身(也就是给数据打标签,举个例子就是,老师上课点名,点一个人划一个名字,被点到的就被打上了已经到达的标签)】【事件时间指事件产生的时间,处理时间指进入Flink,进行处理的时间】本质上是一个分组再聚合的操作。可以用SQL语句处理无界数据。

2024-02-20 17:02:59 366

原创 Flink学习 | 基础介绍

Spark 核心是批处理,尝试在批处理之上支持流计算,那么对于它来说,像Flink这样的实时计算,就会被看成一个个微小的批处理,因此对于Spark而言,并不是真正意义上的“流处理”,而是一个个“微批次”处理。【因为数据的传递有结束,因此可以等待数据全部传递完毕再进行处理,因此不需要严格保证数据的顺序,因为所有数据抵达后,总能按正确的顺序对数据进行排列。而Flink 的核心是流处理,因此它认为即使是批处理,也可以被统一为流处理。流处理:来一个处理一个,就像是流水线工作,它是即时处理的,是一个实时的处理;

2024-02-06 10:55:55 374

原创 机器学习 | CNN-softmax学习及实现

如下图所示,卷积神经网络CNN的基本结构主要有三个层,分别是和第一层为卷积层,第二层为池化层(又称降采样层或下采样层),第三四层和一二层一样,最后把池化结果拉平成一条长向量,传入到底层的全连接层中,最后输出结果。

2023-09-07 16:24:12 653

原创 机器学习——几种分类器实现代码及交叉验证评估参数总结(SVC、CART、XGBoost)

分类模型参数及实现

2023-08-31 12:45:17 262

原创 Anaconda、Jupyter使用(创建虚拟环境并在Jupyter中添加内核)

参考这位博主~,写的很详细,以下主要写一些常用的操作。

2023-08-21 15:27:54 700

原创 OpenAI开源!!Whisper语音识别实战!!【环境配置+代码实现】

***** 实现 .mp4转换为 .wav文件,识别后进行关键词匹配并输出关键词出现的次数****** 完整代码实现请私信。

2023-05-19 16:55:07 900 1

原创 Django开发——初步了解 | 搭建流程|py2neo出错解决

定义模型model,模型本质上就是数据库表的布局,再附加一些元数据。

2023-05-15 12:57:24 294

原创 PySpark实战(五)——PySpark ETL实战(包括数据的抽取、转换、加载及numpy、matplotlib、pandas的综合使用)

ETL是指 Extract、Transfrom 和 Load 的简称。用来描述将数据从数据源经过抽取、转换、加载至终端的一系列处理过程。

2023-03-24 14:38:59 1892 1

原创 PySpark实战(四)——一个Spark程序(py编写,圆周率Pi的计算)

Spark程序_圆周率PI的计算

2023-03-21 13:30:06 474

原创 PySpark实战(四)——活用PySpark( DataFrames 与 Spark SQL)_Jupyter notebook中运行

DataFrames 与 Spark SQL,Spark操作、RDD操作,关联查询

2023-03-21 11:21:13 820

原创 PySpark实战(四)——共享变数(变量)的两种方法

Spark共享变数的方法操作

2023-03-20 11:30:22 155

原创 PySpark实战(三)——活用PySpark(Python基础语法复习 & 建立第一个Spark RDD & RDD的操作 [ 见PySpark_operation.ipynb文件 ])

RDD操作,Python复习

2023-03-20 10:48:34 976

原创 PySpark实战(二)——Spark环境配置

Spark环境配置

2023-03-14 14:48:47 1418

原创 PySpark实战(一)——大数据时代及Spark

PySpark实战 大数据认知

2023-03-13 14:12:01 308

原创 Hadoop学习(十)——HiveQL查询

Hive QL 查询操作

2023-03-13 11:05:55 667

原创 Hadoop学习(九)——HiveQL数据操作

装载数据导出数据操作数据

2023-03-10 09:47:13 112

原创 Hadoop学习(八)——Hive语法及操作

HiveHive数据定义Hive基础语法

2023-03-09 16:32:21 419

原创 Hadoop学习(七)——Hive

Hive 操作Hive HQL语句实践Hadoop数据分析

2023-03-07 16:02:57 611

原创 Hadooop学习(六)——数据挖掘和数据仓储——Hadoop上Hive安装(排坑版)

Hadoop环境下配置Hive

2023-03-07 09:53:17 140

原创 Hadoop学习(三)——Python框架和Hadoop Streaming

WordCount程序识别文本重要短语频率的MapReduce作业高级的MapReduce主题如何将这些主题应用于Python编写的Streaming作业中

2023-03-03 14:26:57 197

原创 Hadoop学习(二)——HDFS&YARN【Hadoop数据分析(图灵程序设计丛书)】

Hadoop的基础结构,初步认识了解HDFS和YARN。进行MapReduce作业,排坑修改,能够顺利执行。

2023-03-03 10:30:39 190

原创 Hadoop学习(一)——环境配置(特别顺利版!!!已经排坑了)

Hadoop集群搭建,特别顺利版!!!!!软件:VM Wareiso 镜像:CentOS7Hadoop 版本:Hadoop-3.3.3。

2023-03-02 13:13:11 3349 1

大数据 PySpark相关操作,PySpark-operation.ipynb文件

可以在jupyter notebook内直接打开运行,进行PySpark的操作练习

2023-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除