- 博客(78)
- 资源 (8)
- 收藏
- 关注
原创 [源码] Spark如何划分Stage
[源码] Spark如何划分Stage文章目录[源码] Spark如何划分Stage大家好,我是一拳就能打爆你A柱的猛男1、Stage的介绍1.1 Stage是什么概念以及Stage的划分1.3 Stage的意义2、从SparkPi定位Stage划分代码3、Spark划分Stage代码解读4、总结大家好,我是一拳就能打爆你A柱的猛男太久不写博客了,今天写的博客可能有点生疏,各位将就看一下。不知道有没有人跟我一样好奇Spark如何划分Stage的,今天翻一下源码给大家看看。1、Stage的介绍这部分
2021-11-14 23:42:38
2576
原创 伪分布式Hadoop下Java API调用
伪分布式Hadoop下Java API 调用以及一些问题的解决方案大家好,我是村口靠捡牛粪过日子的可怜虫最近比较忙都没时间写博客了,想想也没什么分享,就给大家分享一些我的报告。这次分享的是Hadoop的Java API调用。一、 实验目的(1) 理解HDFS在Hadoop体系结构中的角色(2) 熟练使用HDFS操作常用的shell命令(3) 熟悉HDFS操作常用的Java API二、 实验环境类型名称版本虚拟机软件VMware Workstation Pro1
2021-04-25 09:20:31
547
原创 【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise
【翻译】A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with NoiseAbstract 摘要 聚类算法是空间数据库分类识别的一种有效方法。然而,在大型空间数据库中的应用对聚类算法提出了如下要求:以最小的领域知识要求来确定输入参数,发现任意形状的聚类,在大型数据库上具有良好的效率。众所周知的聚类算法无法解决这些需求的结合。本文提出了一种新的基于聚类密度的聚类算法DBSCAN,该算法旨在发现
2021-04-14 11:41:30
1458
原创 kafka 2.7 单机启动步骤、kafka-connect配置
kafka 2.7 单机启动步骤、kafka-connect配置有点忘记了,所以要重新记录kafka单机启动步骤,首先是下载kafka.tar.gz包,然后解压,不需要进行任何配置,就可以进行下面的操作了。1、kafka 2.7 单机启动步骤整体的流程是,先启动zookeeper,然后启动kafka-server,最后就可以启动生产者消费者什么的了。1.1 启动zookeeper进入bin$ bin/zookeeper-server-start.sh config/zookeeper.prope
2021-04-11 12:14:39
1938
原创 WARN NetworkClient: [Consumer clientId=consumer-g1-1, groupId=g1] Error connecting to node
在Spark Streaming连接Kafka的时候出现了WARN NetworkClient: [Consumer clientId=consumer-g1-1, groupId=g1] Error connecting to node,记录一下,也给大家排坑。首先介绍一下kafka的状况,kafka正常运行,开启了zk和kafka,可以正常创建topic,开生产者和消费者可以正常消费。streaming代码在另一台机器上正常运行,但是换了电脑,环境明明一样,但是却无法消费,报错如下:.
2021-04-09 22:24:21
5379
原创 【翻译】ASML Automatic Streaming Machine Learning
【翻译】ASML Automatic Streaming Machine Learning摘要 Abstract 除了大数据系统的规模问题,新数据产生和移动的高速度也带来了新的挑战。为了提取有用的见解,构建能够高效处理高速数据的系统变得至关重要,如果处理大数据而无法从中获得价值则并没有什么意义。 与典型的离线/批处理机器学习场景相反,在流的设置中,数据无法预先访问,我们需要在流数据到达时即刻学习并预测,从而支持实时的决策,例如基于他/她的概率会点击决定是否向用户展示一个广告。 在这项工作
2021-04-08 11:24:12
480
原创 【翻译】StreamDM:基于Spark Streaming的高级数据挖掘 StreamDM: Advanced Data Mining in Spark Streaming
【翻译】StreamDM:基于Spark Streaming的高级数据挖掘 StreamDM: Advanced Data Mining in Spark Streaming摘要 Abstract 由于不断产生的大量数据,实时分析变得越来越重要。根据我们在华为诺亚方舟实验室的经验,我们在这里展示并演示了StreamDM,这是一个新的开源数据挖掘和机器学习库,设计在Spark Streaming之上,Spark Streaming是Spark核心API的扩展,支持可扩展的数据流处理。StreamDM
2021-04-05 11:17:27
753
1
原创 【翻译】Big Data Analysis: Apache Storm Perspective 大数据分析:Apache Storm视角
【翻译】Big Data Analysis: Apache Storm Perspective 大数据分析:Apache Storm视角摘要 Abstract技术的繁荣导致了新概念和新挑战的出现。大数据是当今人们谈论的术语之一。在商业竞争中,大数据正成为竞争优势的同义词。尽管大数据带来了巨大的好处,但也伴随着一些严峻的挑战,当涉及到大数据分析时,它需要一些严肃的思考。在业界最受信任的实时处理和容错工具Apache Storm的帮助下,本研究利用Twitter数据样本,探索大数据术语及其分析概念。关键
2021-04-02 09:42:10
655
2
原创 【翻译】MOA - Massive Online Analysis, a Framework for Stream Classification and Clustering
【翻译】MOA - Massive Online Analysis, a Framework for Stream Classification and Clustering. MOA - 海量在线分析,一个流分类聚类框架摘要 Abstract 海量在线分析(MOA)是一个软件环境,可以用于实现算法和运行实验,从不断演变的数据流中进行在线学习。MOA的设计是为了解决将最先进算法的实现扩展到真实世界数据集大小的挑战性问题。它包含了用于分类和聚类的离线在线集合,以及用于评估的工具。特别的,对于分类,它实
2021-04-01 10:25:59
1354
3
原创 【翻译 - 部分】CluStream - 用于聚类不断演变的数据流的框架
CluStream - 用于聚类不断演变的数据流的框架摘要 Abstract 聚类问题是流式数据领域的一个难题。这是因为大规模的数据流的到达使得传统算法显得效率太低。近几年,一些逐条聚类的算法被发明出来应对流式数据的问题。尽管这些方法解决了聚类问题中的可伸缩性问题,但是他们对数据的演变视而不见,并且无法解决以下问题:(1)当数据随着时间的推移发展时,簇的质量会很差。(2)一个流式数据聚类算法面对不同部分的数据流时需要更强大的发现和探索簇心的功能。 面对流式数据聚类算法广泛的做法是一类将数据逐条
2021-03-29 23:28:42
796
原创 如何将Spark程序打包上传服务器运行
Spark打包上传服务器运行+UCI数据集大家好,我是状态很Down的万年备胎不知道各位有没有被胎过的感觉,怎么说呢,这次感觉就很奇妙,也算是一种人生经历吧。我开始理解为什么有的人明知道被胎了但是还是前仆后继,因为有些人的尺度把握的程度简直比用光刻机雕花还精准,一巴掌一颗糖的让你觉得有戏!还有戏!她不是不爱我只是现在还不想谈恋爱,只要她想谈恋爱第一个就是我!哈哈哈真的有意思,我觉得我应该要多读读心理学的书了。人间险恶啊,各位兄弟!算了,言归正传,可能有的朋友也知道一些有名的数据集网站例如UCI、
2021-03-23 22:52:45
1328
原创 Spark MLlib中支持二次训练的模型算法
在Spark MLlib中可以做二次训练的模型大家好,我是心情有点低落的一拳超人今天给大家带来我整理的Spark 3.0.1 MLlib库中可以做二次训练的模型总结,首先给大家介绍一下什么是二次训练:这词是我自己想的,因为我不知道有哪些确切的表达方式,所谓二次训练就是将模型的参数,或者整个模型保存起来,然后通过new的方式新建训练类,通过训练类和上次训练出来的模型\参数做第二次、第三次训练。接下来我将对Spark官方网站基于RDD的所有MLlib算法都做一遍测试,大家可以跟着目录来看。1、可以做二次训
2021-03-18 11:29:57
751
原创 如何获取Spark MLlib的训练进度
如何获取Spark MLlib的训练进度大家好,我是一拳打不死小强的害怕超人太久不写博客了,因为我最近在找方法展示Spark MLlib中典型批式算法的进度条,今天给大家分析一下如何获取MLlib训练进度条。其实也很简单,但是我中间因为粗心忽略了很多问题,所以记录一下。先说结论:与SKlearn的做法相同,都是在训练时在外部循环即可。背景现在要做的是把Spark MLlib中那些典型批式算法的训练进度表现出来,类似于SKlearn:for epoch in range(5): train
2021-03-15 17:32:13
474
原创 Spark-mllib模型序列化与反序列化
Spark-mllib模型序列化与反序列化大家好,我是一拳就能打爆A柱的魔鬼筋肉人不知道大家有没有这种需求,将训练好的模型保存在数据库中,今天给大家带来的是Spark-mllib的模型的序列化和反序列化。接下来我从下面几个点来记录这个需求:1、序列化,2、反序列化。1、 main方法流程其实main方法的流程很简单,简单来说就是训练模型、保存模型、从数据库中反序列化出来模型对象,最后使用模型做一个预测:def main(args: Array[String]): Unit = { ....
2021-03-03 19:10:18
495
1
原创 [Exception]java.io.StreamCorruptedException: invalid stream header
[Exception]java.io.StreamCorruptedException: invalid stream header今天在做模型序列化保存的时候出现这个异常,首先给大家介绍一下场景。我在Spark-mllib的环境下将训练好的模型序列化,并且将序列化的Byte数组存入数据库。但是在从数据库中读取出Byte数组后,反序列化的过程中弹出这个异常。异常定位的代码如下:*** val reloadedModel: KMeansModel = reloadModel("kmeans")def
2021-03-03 18:52:21
1546
1
原创 从PMML文件导入mllib模型
从PMML文件导入mllib模型之前找到了从mllib导出PMML模型的方法,并且知道如何从PMML中通过jpmml获取evaluator进行评价。但是要做加载模型进行下一阶段训练的方法没有找到。我找了好几个相关的库都只能找到获取evaluator做评估的方法,最后我想起爬虫中有解析xml的方法,所以通过DOM做了自定义的PMML文件解析,从而获取参数构建模型来训练。1、 DOM自定义PMML解析DOM可以将xml-like的文件转成树结构,具体如下:<?xml version="1.0" e
2021-03-02 15:00:09
407
原创 Spark实时进度查询
Spark实时进度查询大家好,我是一拳就能打爆帕特农神庙柱子的猛男相信大家都有需求要查询Spark程序执行的进度,所以今天给大家带来Spark实时进度查询的方式整理。我在Spark官网找到了关于Spark监控的相关介绍,Spark指标监控有几种方法:web UI,REST API1、 web UI当SparkContext执行的时候,在浏览器中访问服务器IP:4040就可以进入UI界面:其中可以访问到的内容有:一系列的task和scheduler stageRDD的size和memory
2021-02-27 16:01:42
2285
原创 一步步实现kafka-connect官方案例FileStream
一步步完成Kafka Connect官方案例FileStreamConnector大家好,我是一拳就能打爆帕萨特A柱的一拳超人之前看了Kafka Connect组件的设计,算是大概了解其中的结构了。Connect是一个高级抽象组件,基于该组件可以DIY出许多数据源的连接器。今天我打算照着Connector开发者指南一步步地实现指南中的Connector。接下来分为下面几个部分:1、FileStreamConnector介绍,2、程序编写,3、打包部署测试。1、FileStreamConnector介绍
2021-02-24 18:41:23
1233
原创 关于kafka-connect的一些理解
关于kafka-connect的一些理解大家好,我是一拳就能打爆A柱的一拳超人这个礼拜我去了解了kafka-connect,相信各位应该了解过Confluent,也可能用过一些功能。我之前使用Confluent是因为这个平台可以做自定义数据拉取,通过配置可以对许多数据源的数据做增量查询。但是经过这段时间的了解,我发现其实并不需要confluent平台,只需要其中的一个组件,也就是kafka-connect。kafka-connect-jdbc是基于kafka-connect开源项目开发出来的可以适配所有
2021-02-24 14:30:48
1849
原创 StreamingLogisticRegression计算部分源码解读
Streaming Logistic Regression计算部分源码解读大家好,我是一拳就能打爆A柱的猛男最近重新调整了时间,以后源码部分和翻译同时做,可能进度慢一点,但是尽量两天一更才行。今天给大家带来流式逻辑回归(Streaming Logistic Regression)计算部分的源码解读,下面我将从下面几个部分来讲解:逻辑回归,程序入口,流式逻辑回归源码。1、逻辑回归 机器学习解决问题的时候,需要将问题进行归类,大致分为两种:数值预测和分类。针对数值预测问题一般采用回归模型;而针对分类
2021-02-18 21:44:14
241
原创 Online Internet Traffic Monitoring System Using Spark Streaming 基于Spark Streaming的在线网络交通监管系统
基于Spark Streaming的在线网络交通监管系统摘要 由于爆炸增长的网络流量数据,网络管理者必须能够监管整个网络的状况并高效地管理网络资源。传统的网络分析方法通常是单机执行,而这种方式因其较差的计算能力不再适用于大规模的流量数据。大数据框架例如Hadoop和Spark可以处理大规模的网络数据。然而,Hadoop和Spark本是为离线数据而设计的。为了应对流式数据,许多流处理框架被提出,例如Storm,Flink和Spark Streaming。在这篇论文的研究中,我们基于Spark Stre
2021-02-17 14:29:09
433
1
原创 【翻译】Online Internet Traffic Monitoring System Using Spark Streaming 基于Spark Streaming的在线网络交通监管系统
大家好,我是一拳就能打爆A柱的男人最近过年,无所事事就找点论文看看,顺便将论文翻译一下,目前只做了一半,大家先凑活着看,感兴趣的可以去看原文。接下来我会尽快将论文翻译完成再重新版。基于Spark Streaming的在线网络交通监管系统摘要 由于爆炸增长的网络流量数据,网络管理者必须能够监管整个网络的状况并高效地管理网络资源。传统的网络分析方法通常是单机执行,而这种方式因其较差的计算能力不再适用于大规模的流量数据。大数据框架例如Hadoop和Spark可以处理大规模的网络数据。然而,Hadoop
2021-02-15 15:36:11
307
原创 StreamingKMeans核心源码解读 流式KMeans核心源码解读
StreamingKMeans核心源码解读 流式KMeans核心源码解读大家好,我是一拳就能打爆A柱的硬核男人之前给大家翻过流式算法的继承树,而且对于每一部分组件的内容、职责都有了一点了解,其实Spark流式算法的大致结构都差不多,所以这里也不给大家翻继承树了,直接上核心部分的代码一行行的分析。接下来我会先介绍方法入口,方便大家打开IDE跟着博客一起看,同时我会以行号加粗的方式标志代码,下方配上分析,希望各位能习惯。(建议一起打开IDE源码交叉看,当然我也会把代码贴出来。)1、 方法入口在Spark
2021-02-08 17:45:48
505
1
原创 Spark中CheckPoint、Cache、Persist的用法、区别
Spark中CheckPoint、Cache、Persist大家好,我是一拳就能打爆A柱的猛男这几天看到一套视频《尚硅谷2021迎新版大数据Spark从入门到精通》,其中有关于检查点(CheckPoint)的内容,所以就给大家以文字的形式复盘一下。接下来的顺序是:Spark关于持久化的描述、Cache用法、Persist用法、CheckPoint用法。中间会讲解三者之间的关系。1、Spark关于持久化的描述在Spark官网,我可以找到关于RDD持久化的全部内容就是如下的内容:RDD Persis
2021-02-07 18:44:19
1888
原创 StreamingLinearRegressionWithSGD核心计算部分源码解读
StreamingLinearRegressionWithSGD核心计算部分源码解读大家好,我是一拳就能打爆A柱的猛男经过考虑,我决定接下来的几天把Spark中的一些流式机器学习算法的最核心的代码给大家讲解一下,看看我能扒多深吧。今天给大家讲流式线性回归最核心的部分的代码,接下来就分为三部分:发现核心、源码分析、对数据的影响。1、发现核心在之前的博客《StreamingLinearRegressionWithSGD源码分析 流式线性回归源码分析》中提到过最核心的这部分代码的位置。但是由于当时关注的重
2021-02-07 11:49:58
295
原创 从装饰者的角度来观察RDD
从装饰者的角度来观察RDD大家好,我是一拳就能打还是爆A柱的硬核男人好久没有更新博客了,不是我没有干活,而是我暂时迷茫找不到目标了。这段时间真的恶心,迷茫到爆,每天看点博客,有时看点书,每天好像开开心心的,可是我没动力了。突然就没动力了,不知道为什么。但是还好,经过调整我还是决定尽量每天都写点博客,针对一个问题深挖下去,记录下来分享给大家。也不知道我这个辣鸡博主有没有人看。最近也是有点其他的收获的,比如我发现我之前对RDD的理解还是有偏差,所以今天我决定去翻RDD的源码希望能给大家带来点新东西。1、设
2021-02-06 22:37:04
193
原创 StreamingLinearRegressionWithSGD源码分析 流式线性回归源码分析
Spark源码大家好,我是一拳就能打爆A柱的A柱猛男上次也写过一篇分析源码的文章,但是结构很乱,所以我决定重新再来一次。这一次我自认为写的很成功,你要是坚持看下去看不懂,我直播给你锤帕萨特A柱!1、StreamingLinearRegressionWithSGD源码我重新去看了DStream和RDD的关系,让我对他们有了更深的理解。RDD作为弹性分布式数据集,**RDD是对分发到各个节点的同一份数据集的不同段的数据的统一抽象,对RDD的操作就是对各个节点相应数据做相同的操作。**而DStream是建
2021-01-16 10:42:22
518
原创 StreamingLinearRegressionWithSGD测试
Spark Streaming 线性回归算法测试一、StreamingLinearRegressionWithSGD测试重新看过文档后对DStream有了理解,我决定在流式处理的时候采用即时训练即时测试的方法,将数据从kafka读取到后经过清洗,复制出一份用于训练,一份用于测试。在DStream中我知道可以遍历每一个RDD(foreachRDD),而且在RDD中的操作可以打印到终端。所以我写了下面这个案例:import java.langimport StreamingLinearRegressi
2021-01-16 10:13:00
405
原创 重新理解RDD和DStream
重新理解RDD和DStream我还是对SparkStreaming的DStream研究不是很深,在做流式处理的时候老是遇到一些问题,比如rdd收集数据不知道去向何方,无法打印,数据无法处理、反馈等等。所以还是要研究一下DStream。一、Spark DStream和RDD的官方文档1.1 DStream介绍DStream官方文档可以看到这一段话:Discretized Stream or DStream is the basic abstraction provided by Spark Stre
2021-01-16 09:55:58
1376
5
原创 StreamingLinearRegressionWithSGD源码分析
StreaingLinearRegressionWithSGD源码分析大家好,我是一拳就能打爆A柱的猛男好久不见,真的好久没写博客了,最近在准备考试,然后写了一篇20年总结。这个礼拜还是跟之前的进度一样去研究如何测试Spark中的流式机器学习算法的性能。今天给大家带来流式线性回归算法的源码讲解,配合我对分布式的了解给大家说说我的看法。巨长,耐心看完会有收获,没时间建议先收藏!巨长,耐心看完会有收获,没时间建议先收藏!巨长,耐心看完会有收获,没时间建议先收藏!StreaingLinearRegre
2021-01-12 16:12:28
450
原创 浅谈人工智能时代下的工程伦理问题
浅谈人工智能时代下的工程伦理问题一、引言近年来,随着大数据基础设施建设以及人工智能技术的发展,社会中涌现出许多新技术,给人们带来更便捷的生活。但与其共生的道德风险问题也日益显著。人工智能道德风险即人工智能技术带来的伦理结果的不确定性,其既有主观因素也有客观因素,具体表现有道德算法风险、道德决策风险、隐私数据泄露风险等。风险主要成因有技术主体、政治、经济、文化等社会因素。结合当下大数据驱动的人工智能算法特点,如何运用风险治理思想分析其背后的工程伦理问题对人工智能领域发展具有重要意义。二、人工智能时代的当
2021-01-09 23:29:25
85819
101
原创 SparkMLlib-KMeans性能测试
SparkMLlib - KMeans性能测试大家好,我是一拳就能打爆A柱的猛男前面两篇写了逻辑回归和线性回归的测试方法,这回来说无监督算法KMeans的测试,接下来的讲解顺序是:1、评价指标介绍,2、具体案例。注:对数据集有疑问的同学可以看《SparkMLlib-LogisticRegression性能测试》,对KMeans算法有疑问的同学可以看《K-Means算法及相关案例》。1、 评价指标介绍聚类算法评价标准需要考虑簇内相似度以及簇间相似度,簇内相似度越高越好,簇间相似度越低越好。聚类算法
2020-12-16 17:32:32
477
2
原创 SparkMLlib-LinearRegression性能测试
LinearRegression性能测试大家好,我是一拳就能打爆A柱的猛男MLlib中的批式机器学习算法LinearRegression也是典型的回归算法,常用于解决回归问题,接上篇《SparkMLlib-LogisticRegression性能测试》的内容我们已经了解的回归算法的正则化、评价指标等问题,接下来做线性回归的性能测试就比较干脆了,接下来我直接带一个案例给大家:1、 LinearRegression案例还是因为没有数据的原因,还是选择使用官方提供的数据集。数据集:sample_line
2020-12-16 17:06:17
364
原创 SparkMLlib-LogisticRegression性能测试
LogisticRegression性能测试大家好,我是一拳就能打爆A柱的猛男MLlib中的批式机器学习算法LogisticRegression是典型的一个回归算法,通常用于分类问题,今天给大家带来逻辑回归的测试方法,接下来的讲解顺序是:1、数据集介绍,2、关于正则化,3、评价指标介绍,4、具体案例。注:若没有接触过回归算法的朋友可以看《逻辑回归(LogisticRegression)算法及简单案例》、《线性回归算法(Linear Regression)及相关案例》、《局部加权线性回归算法(Local
2020-12-16 16:48:47
297
原创 CentOS安装达梦数据库
DM8数据库搭建大家好,我是一拳就能打爆A柱的男人达梦数据库安装我也花了一段时间,今天给大家总结一番希望各位不要踩坑。当然我建议各位也是结合官方文档、本文以及达梦数据库 linux 安装 部署 这三部分一起看。接下来分几点:1、环境介绍 2、DM8下载 3、准备工作 4、安装达梦数据库 5、达梦数据库初始化 6、创建服务和启动服务 7、DM相关操作。1. 环境介绍版本其他LinuxCentOS 6.10内存:2GBJDK1.8.0_141达梦数据库DM8开
2020-12-09 21:27:05
1724
原创 Confluent6.0平台搭建
Confluent6.0平台搭建大家好,我是一拳就能打爆A柱的男人我搭Confluent的时候也遇上很多问题,所以我也不希望各位把坑都踩一遍,所以给大家带来这篇搭建流程。大家一定要多看官方的文档,里面文件虽然很乱,但是确实有整体的搭建流程。我建议各位一边看这篇博客,一边搭配官方文档来做!1. 环境介绍版本其他LinuxCentOS 6.10内存:2GBJDK1.8.0_1412. Confluent6.0下载进入Confluent官网 点击右上角GET S
2020-12-09 18:55:42
1642
原创 Confluent 5.0 连接JDBC遇到的问题
Confluent 5.0 连接JDBC遇到的问题大家好,我是一拳背A柱大弯的男人这个礼拜直接原地爆炸,本周需要搭建Confluent平台并且通过JDBC连接数据源。我选择连接MySQL进行测试,但是在配置过程中遇到了问题,接下来我给大家讲一下我遇到的问题。接下来我将详细汇报一下目前遇到的问题。经过查询 Confluent 的文档我找到 Getting Started with Kafka Connect 这份用户手册,里面介绍了 Kafka Connect 能够连接多种数据源,并且可以在单机和集
2020-12-01 21:55:51
898
3
原创 Streaming做KMeans、实时KMeans算法
Streaming是怎么做KMeans的?大家好,我是一拳就能打爆你A柱的男人大家在学机器学习的时候一定看过K-Means算法,但是各位有没有想过在实时计算的时候是如何做K-Means的呢?接下来我打算从下面几个方面来给大家梳理一下:1、K-Means算法原理,2、Streaming K-Means手算,3、Streaming K-Means源码解读。1、 K-Means算法原理关于K-Means算法我之前有一篇博客也讲过,并且附带案例。各位有兴趣的可以去看一看:K-Means算法及相关案例 。接下
2020-11-24 17:09:36
1362
原创 RDD到底是什么?RDD的API
RDD到底是什么?RDD的API大家好,我是W今天给大家带来一篇关于Spark和RDD的博客,由于我也是初学者,所以没法带来那么深刻的东西,但是我希望用我的感性认知带给大家一点灵感,毕竟刚开始学习Spark的时候我对RDD概念、Spark流程是有很多困惑的,我觉得大家也可能存在这种问题。OK,接下来我将从以下几个角度来讲RDD和Spark:1、 Spark简介、对比hadoop、生态,2、 RDD概念1、 Spark简介、对比hadoop、生态1.1 Spark简介在Spark官网,可以看到官方对
2020-11-18 12:21:52
605
Online Internet Traffic Monitoring System Using Spark Streaming.pdf
2021-02-17
【翻译】Online Internet Traffic Monitoring System Using Spark Streaming.pdf
2021-02-17
cd_lianjia_multi.zip
2020-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人