- 博客(24)
- 收藏
- 关注
原创 Flink 学习 | 运行时的架构(包括一些核心概念和提交流程)
Flink 中,并行度相同的 ont to one 算子操作,可以直接连接起来形成一个大的 task 任务,这样,每个 task 会被一个线程执行,这种技术叫算子链。这种模式下,数据流维护着分区及元素的顺序。实际上,每个任务槽就表示了 Task Manager 拥有计算资源的一个固定大小的子集,用来独立执行一个一个的子任务。一个数据流在算子之间传输数据的形式可以有两种,一种是一对一的直通模式,另一种是打乱的重分区模式,这取决于算子的种类。每个算子的子任务,会根据数据传输的策略,将数据发送到不同的下游目标。
2024-02-28 11:20:46 1043
原创 Flink 学习 | 在集群上的,部署模式及运行模式
Client 将作业提交给 JobManager ,JobManager 将作业分发给很多个 TaskManager 开始干活。部署模式有三种(会话模式_session,单作业模式_per_job,应用模式_application)主要区别是生命周期及资源的分配方式,以及应用的 main 方法到底在哪里执行,是客户端还是JobManager。
2024-02-22 15:07:31 512
原创 Flink 学习 | 尚硅谷课程跟学_基础理解
有状态:把流处理需要的额外数据保存成一个“状态”,然后针对该数据进行处理,并更新状态。【一种可理解为计算的中间过程,另一种可理解为数据本身(也就是给数据打标签,举个例子就是,老师上课点名,点一个人划一个名字,被点到的就被打上了已经到达的标签)】【事件时间指事件产生的时间,处理时间指进入Flink,进行处理的时间】本质上是一个分组再聚合的操作。可以用SQL语句处理无界数据。
2024-02-20 17:02:59 419
原创 Flink学习 | 基础介绍
Spark 核心是批处理,尝试在批处理之上支持流计算,那么对于它来说,像Flink这样的实时计算,就会被看成一个个微小的批处理,因此对于Spark而言,并不是真正意义上的“流处理”,而是一个个“微批次”处理。【因为数据的传递有结束,因此可以等待数据全部传递完毕再进行处理,因此不需要严格保证数据的顺序,因为所有数据抵达后,总能按正确的顺序对数据进行排列。而Flink 的核心是流处理,因此它认为即使是批处理,也可以被统一为流处理。流处理:来一个处理一个,就像是流水线工作,它是即时处理的,是一个实时的处理;
2024-02-06 10:55:55 429
原创 机器学习 | CNN-softmax学习及实现
如下图所示,卷积神经网络CNN的基本结构主要有三个层,分别是和第一层为卷积层,第二层为池化层(又称降采样层或下采样层),第三四层和一二层一样,最后把池化结果拉平成一条长向量,传入到底层的全连接层中,最后输出结果。
2023-09-07 16:24:12 874
原创 OpenAI开源!!Whisper语音识别实战!!【环境配置+代码实现】
***** 实现 .mp4转换为 .wav文件,识别后进行关键词匹配并输出关键词出现的次数****** 完整代码实现请私信。
2023-05-19 16:55:07 1058 1
原创 PySpark实战(五)——PySpark ETL实战(包括数据的抽取、转换、加载及numpy、matplotlib、pandas的综合使用)
ETL是指 Extract、Transfrom 和 Load 的简称。用来描述将数据从数据源经过抽取、转换、加载至终端的一系列处理过程。
2023-03-24 14:38:59 2169 1
原创 PySpark实战(四)——活用PySpark( DataFrames 与 Spark SQL)_Jupyter notebook中运行
DataFrames 与 Spark SQL,Spark操作、RDD操作,关联查询
2023-03-21 11:21:13 1071
原创 PySpark实战(三)——活用PySpark(Python基础语法复习 & 建立第一个Spark RDD & RDD的操作 [ 见PySpark_operation.ipynb文件 ])
RDD操作,Python复习
2023-03-20 10:48:34 1206
原创 Hadoop学习(三)——Python框架和Hadoop Streaming
WordCount程序识别文本重要短语频率的MapReduce作业高级的MapReduce主题如何将这些主题应用于Python编写的Streaming作业中
2023-03-03 14:26:57 245
原创 Hadoop学习(二)——HDFS&YARN【Hadoop数据分析(图灵程序设计丛书)】
Hadoop的基础结构,初步认识了解HDFS和YARN。进行MapReduce作业,排坑修改,能够顺利执行。
2023-03-03 10:30:39 219
原创 Hadoop学习(一)——环境配置(特别顺利版!!!已经排坑了)
Hadoop集群搭建,特别顺利版!!!!!软件:VM Wareiso 镜像:CentOS7Hadoop 版本:Hadoop-3.3.3。
2023-03-02 13:13:11 3588 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人