自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 TikTok C.E.O. Shou Chew on China, the Algorithm and More

是,我们确实有规则,就像 Tech Talk 的运作方式一样,我们确实有大约 13 条规则,我们。在这种情况下,低于特定年龄的人在13 岁以下,所以你可以使用不同的应用程序,这样你 我会。顺便说一下,现在他们已经使用了Tick Tock 的家伙,我不知道他们在哪里,嗯,为 13 岁以下的孩子而存在的,我可以分享,我可以 离线与您分享更多详细信息,只要 我知道,如果您在平台上花费太多时间,我们是第一个开始推送消息的平台,在 Twitter 上,嗯,我也在关注新闻,我认为 Elon 是一位非常。

2024-04-28 17:50:05 735

原创 SparkSQL创建DataFrame:外部文件方式

【代码】SparkSQL创建DataFrame:外部文件方式。

2024-04-07 13:02:46 344

原创 SparkSQL创建DataFrame:Pandas方式

【代码】SparkSQL创建DataFrame:Pandas方式。

2024-04-07 12:50:17 364

原创 SparkSQL创建DataFrame:RDD方式

【代码】SparkSQL创建DataFrame:RDD方式。

2024-04-07 12:40:26 112

原创 Spark创建DataFrame

【代码】Spark创建DataFrame。

2024-04-07 12:14:19 68

原创 spark高手必备

spark官方问题交流 Stack Overflow。

2024-04-05 15:31:42 128

原创 [官网解读]Spark Shuffle

在计算过程中,单个任务将在单个分区上进行操作,因此,为了组织单个reduceByKey reduce任务执行的所有数据,Spark需要执行一个all-to-all操作。它必须从所有分区中读取,以找到所有键的所有值,然后将分区之间的值合并在一起,以计算每个键的最终结果——这被称为shuffle。当内存放不下这些数据时,Spark会将这些表溢出到磁盘,从而导致磁盘I/O的额外开销和垃圾回收的增加。尽管新混洗数据的每个分区中的元素集是确定的,分区本身的排序也是确定的,但这些元素的排序不是。

2024-04-05 15:02:37 2128

原创 SparkSQL 和 HiveSQL的区别

相同点 1. 都可以通过SQL分析数据. 2. 都可以处理大规模的数据. 3. 都是处理结构化的数据. 4. 都是提交到Yarn平台来使用. 不同点 1. SparkSQL是基于内存的迭代计算, HiveSQL它是基于磁盘的迭代计算. 2. HiveSQL仅仅能用SQL语言操作, SparkSQL除了能用SQL语句外, 还可以写DSL代码. 3. Hive有专门的元数据管理服务叫metastore, Spark没有元数据管理服务, 而是由Spark自己来维护. 4. Hi

2024-03-30 20:29:48 513

原创 RDD的内核调度——Spark的并行度

当申请的资源比较小的时候, 如果数据量比较大, 会导致没有相应的资源来执行, 本来是能并行执行的, 变成了串行, 影响整个执行效率.conf.set("spark.defalut.parallelism", 4) 设置并行度为4。由提交任务时, 所申请的Executor数量 和 CPU核数, 内存来决定的.当申请的资源比较大的时候, 如果数据量不大, 这样虽然不会影响执行效率, 但是会造成资源浪费.调整的标准: 在合适的资源上, 运行合适的任务, 产生合适的并行度.

2024-03-30 20:00:52 312

原创 RDD的内核调度——Job的调度流程

1个Spark应用程序可以产生多个job任务(依据: Action算子), 1个Job任务产生1个DAG执行流程图,1个DAG有多个Stage阶段(依据:宽依赖), 1个Stage阶段可以有多个线程.

2024-03-30 19:57:10 211

原创 Python处理EXCEL数据

【代码】Python处理EXCEL数据。

2024-03-30 19:28:52 74

原创 RDD缓存 检查点 共享变量 累加器

4. 有了缓存后, 可以将某些阶段的RDD进行缓存操作, 这样当后续的RDD计算失败的时候, 可以从最近的一个缓存中恢复数据 重新计算即可, 无需在回溯所有链条.当调度用多次action的时候, 会产生多个JOB(计算任务), 由于RDD值存储计算的规则, 不存储数据, 当第一个action计算完成后, 得到一个结果,MEMORY_AND_DISK_SER_2 //优先将数据保存到内存中, 当内存不足的时候, 可以将数据保存到磁盘中, 带2的表示保存二份,

2024-03-26 21:58:39 2177

原创 PyCharm 配置模板和快捷方式

template。

2024-03-25 19:59:55 87

原创 RDD Join

【代码】RDD Join。

2024-03-25 18:08:35 185

原创 RDD 聚合函数

【代码】RDD 聚合函数。

2024-03-25 17:59:59 149

原创 RDD repartition function 重分区函数

repartition : return self.coalesce(numPartitions, shuffle=True) shuffle 会产生 stage in DAG.coalesce(numPartitions, shuffle=False) 默认shuffle False 不会产生 stage in DAG.

2024-03-25 16:13:54 159

原创 RDD分区函数

【代码】RDD分区函数。

2024-03-23 15:22:16 200

原创 pyspark 演示 RDD算子 基础篇

如上图所示,自动创建sc context.Linux 下输入 pyspark。

2024-03-23 11:47:27 325

原创 RDD 算子

【代码】RDD 算子。

2024-03-21 22:13:01 100

原创 创建RDD对象4

【代码】创建RDD对象4。

2024-03-19 22:04:03 95

原创 创建RDD对象3

【代码】创建RDD对象3。

2024-03-19 22:03:08 103

原创 创建RDD对象2

【代码】创建RDD对象2。

2024-03-19 22:02:03 88

原创 创建RDD对象1

【代码】创建RDD对象1。

2024-03-19 22:01:15 69

原创 pySpark与Spark集群交互方式

1. 启动Driver程序2. 向Master申请资源3. Master根据要申请的资源, 返回对应资源列表 executor1 : node1 1核 1GB executor2: node2 1核 1GB4. 连接对应worker节点, 通知他们启动Executor,当我worker启动完成后, 需要反向注册回Driver(通知)5. Driver开始执行Main函数: 5.1 初始化sc对象: 构建SparkContext, 基于py4j. 将python中定义的如何初始化

2024-03-18 22:32:59 806

原创 Spark deploy-mode

弊端:不方便测试, Driver运行在集群环境中,所有的内容全部都会记录到日志文件中, 无法会给提交的客户端, 所以客户端想要查看结果, 需要看日志。好处: Driver程序和executor都在同一个集群环境中, 在进行传输数据的时候, 可以更大利用内部网络带宽优势, 提升效率。在将Spark任务提交到集群(YARN, Spark集群为主)的时候,提供两种提交部署方案: client模式 , cluster模式。在客户端模式下, 不存在Driver的日志, 因为日志是直接输出客户端。如何使用两种模式呢?

2024-03-18 21:28:11 1956

原创 Spark Driver vs Executor

2. Executor程序(JVM程序) 执行器, 可以理解为是一个线程池, 内部运行多个线程(Task)1. Driver程序(JVM程序) Spark驱动程序(任务的管家)主要作用: 资源的申请, 任务的分配, 任务的监控管理。主要作用: 通过内部多个线程来执行具体的任务。

2024-03-16 17:31:34 412

原创 Spark on YARN 环境搭建

当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖。,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,## 启动Spark HistoryServer服务,,在node1执行命令。Spark Application运行在YARN上时,上述配置完成。-- 设置yarn集群的内存分配方案 -->## 启动HDFS和YARN服务,在node1执行命令。-- 配置yarn主节点的位置 -->设置聚合日志在hdfs上的保存时间 -->

2024-03-16 16:52:04 845

原创 pySpark Case 1 words count

需求: 从HDFS中读取数据, 对数据进行统计分析(WordCount), 最后讲结果根据单词数量进行倒序排序, 并将结果写出HDFS上.start-all.sh //启动Hadoop集群, HDFS的Web页面地址是: node1:9870。创建 /pydata 文件夹, 然后把 words.txt 文件上传到该文件夹下即可.3. 去HDFS的中创建一个目录, 然后上传 words.txt文件到该目录下.1. 需要先把node1, node2, node3这三台机器给启动了.

2024-03-16 15:19:47 348

原创 tensorflow constant

首先我们载入tensorflow模块,如果需要,可以查看一下当前tf的版本import tensorflow as tfprint(tf.__version__)tensorflow是一种图计算框架,所有的计算操作被声明为图(graph)中的节点(Node)即使只是声明一个变量或者常量,也并不执行实际的操作,而是向图中增加节点a = tf.constant(5)b = tf.con...

2019-04-18 00:03:11 379

SQL 练习题适合ORACLE MYSQL SQL Server等

SQL 练习题适合ORACLE MYSQL SQL Server等

2024-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除