傻么老幺-CSDN博客

原创 TikTok C.E.O. Shou Chew on China, the Algorithm and More

是，我们确实有规则，就像 Tech Talk 的运作方式一样，我们确实有大约 13 条规则，我们。在这种情况下，低于特定年龄的人在13 岁以下，所以你可以使用不同的应用程序，这样你我会。顺便说一下，现在他们已经使用了Tick Tock 的家伙，我不知道他们在哪里，嗯，为 13 岁以下的孩子而存在的，我可以分享，我可以离线与您分享更多详细信息，只要我知道，如果您在平台上花费太多时间，我们是第一个开始推送消息的平台，在 Twitter 上，嗯，我也在关注新闻，我认为 Elon 是一位非常。

2024-04-28 17:50:05 801

原创 SparkSQL创建DataFrame:外部文件方式

【代码】SparkSQL创建DataFrame:外部文件方式。

2024-04-07 13:02:46 354

原创 SparkSQL创建DataFrame:Pandas方式

【代码】SparkSQL创建DataFrame:Pandas方式。

2024-04-07 12:50:17 376

原创 SparkSQL创建DataFrame:RDD方式

【代码】SparkSQL创建DataFrame:RDD方式。

2024-04-07 12:40:26 125

原创 Spark创建DataFrame

【代码】Spark创建DataFrame。

2024-04-07 12:14:19 76

原创 spark高手必备

spark官方问题交流 Stack Overflow。

2024-04-05 15:31:42 133

原创 [官网解读]Spark Shuffle

在计算过程中，单个任务将在单个分区上进行操作，因此，为了组织单个reduceByKey reduce任务执行的所有数据，Spark需要执行一个all-to-all操作。它必须从所有分区中读取，以找到所有键的所有值，然后将分区之间的值合并在一起，以计算每个键的最终结果——这被称为shuffle。当内存放不下这些数据时，Spark会将这些表溢出到磁盘，从而导致磁盘I/O的额外开销和垃圾回收的增加。尽管新混洗数据的每个分区中的元素集是确定的，分区本身的排序也是确定的，但这些元素的排序不是。

2024-04-05 15:02:37 2142

原创 SparkSQL 和 HiveSQL的区别

相同点 1. 都可以通过SQL分析数据. 2. 都可以处理大规模的数据. 3. 都是处理结构化的数据. 4. 都是提交到Yarn平台来使用. 不同点 1. SparkSQL是基于内存的迭代计算, HiveSQL它是基于磁盘的迭代计算. 2. HiveSQL仅仅能用SQL语言操作, SparkSQL除了能用SQL语句外, 还可以写DSL代码. 3. Hive有专门的元数据管理服务叫metastore, Spark没有元数据管理服务, 而是由Spark自己来维护. 4. Hi

2024-03-30 20:29:48 601

原创 RDD的内核调度——Spark的并行度

当申请的资源比较小的时候, 如果数据量比较大, 会导致没有相应的资源来执行, 本来是能并行执行的, 变成了串行, 影响整个执行效率.conf.set("spark.defalut.parallelism", 4) 设置并行度为4。由提交任务时, 所申请的Executor数量和 CPU核数, 内存来决定的.当申请的资源比较大的时候, 如果数据量不大, 这样虽然不会影响执行效率, 但是会造成资源浪费.调整的标准: 在合适的资源上, 运行合适的任务, 产生合适的并行度.

2024-03-30 20:00:52 329

原创 RDD的内核调度——Job的调度流程

1个Spark应用程序可以产生多个job任务(依据: Action算子), 1个Job任务产生1个DAG执行流程图,1个DAG有多个Stage阶段(依据:宽依赖), 1个Stage阶段可以有多个线程.

2024-03-30 19:57:10 221

原创 Python处理EXCEL数据

【代码】Python处理EXCEL数据。

2024-03-30 19:28:52 82

原创 RDD缓存检查点共享变量累加器

4. 有了缓存后, 可以将某些阶段的RDD进行缓存操作, 这样当后续的RDD计算失败的时候, 可以从最近的一个缓存中恢复数据重新计算即可, 无需在回溯所有链条.当调度用多次action的时候, 会产生多个JOB(计算任务), 由于RDD值存储计算的规则, 不存储数据, 当第一个action计算完成后, 得到一个结果,MEMORY_AND_DISK_SER_2 //优先将数据保存到内存中, 当内存不足的时候, 可以将数据保存到磁盘中, 带2的表示保存二份,

2024-03-26 21:58:39 2189

原创 PyCharm 配置模板和快捷方式

template。

2024-03-25 19:59:55 106

原创 RDD Join

【代码】RDD Join。

2024-03-25 18:08:35 196

原创 RDD 聚合函数

【代码】RDD 聚合函数。

2024-03-25 17:59:59 157

原创 RDD repartition function 重分区函数

repartition : return self.coalesce(numPartitions, shuffle=True) shuffle 会产生 stage in DAG.coalesce(numPartitions, shuffle=False) 默认shuffle False 不会产生 stage in DAG.

2024-03-25 16:13:54 170

原创 RDD分区函数

【代码】RDD分区函数。

2024-03-23 15:22:16 206

原创 pyspark 演示 RDD算子基础篇

如上图所示，自动创建sc context.Linux 下输入 pyspark。

2024-03-23 11:47:27 335

原创 RDD 算子

【代码】RDD 算子。

2024-03-21 22:13:01 107

原创创建RDD对象4

【代码】创建RDD对象4。

2024-03-19 22:04:03 109

原创创建RDD对象3

【代码】创建RDD对象3。

2024-03-19 22:03:08 109

原创创建RDD对象2

【代码】创建RDD对象2。

2024-03-19 22:02:03 96

原创创建RDD对象1

【代码】创建RDD对象1。

2024-03-19 22:01:15 74

原创 pySpark与Spark集群交互方式

1. 启动Driver程序2. 向Master申请资源3. Master根据要申请的资源, 返回对应资源列表 executor1 : node1 1核 1GB executor2: node2 1核 1GB4. 连接对应worker节点, 通知他们启动Executor,当我worker启动完成后, 需要反向注册回Driver(通知)5. Driver开始执行Main函数: 5.1 初始化sc对象: 构建SparkContext, 基于py4j. 将python中定义的如何初始化

2024-03-18 22:32:59 835

原创 Spark deploy-mode

弊端:不方便测试, Driver运行在集群环境中,所有的内容全部都会记录到日志文件中, 无法会给提交的客户端, 所以客户端想要查看结果, 需要看日志。好处: Driver程序和executor都在同一个集群环境中, 在进行传输数据的时候, 可以更大利用内部网络带宽优势, 提升效率。在将Spark任务提交到集群(YARN, Spark集群为主)的时候,提供两种提交部署方案: client模式 , cluster模式。在客户端模式下, 不存在Driver的日志, 因为日志是直接输出客户端。如何使用两种模式呢?

2024-03-18 21:28:11 1987

原创 Spark Driver vs Executor

2. Executor程序(JVM程序) 执行器, 可以理解为是一个线程池, 内部运行多个线程(Task)1. Driver程序(JVM程序) Spark驱动程序(任务的管家)主要作用: 资源的申请, 任务的分配, 任务的监控管理。主要作用: 通过内部多个线程来执行具体的任务。

2024-03-16 17:31:34 445

原创 Spark on YARN 环境搭建

当Spark Application应用提交运行在YARN上时，默认情况下，每次提交应用都需要将依赖。，为了节省提交时间和存储空间，将Spark相关jar包上传到HDFS目录中，## 启动Spark HistoryServer服务，，在node1执行命令。Spark Application运行在YARN上时，上述配置完成。-- 设置yarn集群的内存分配方案 -->## 启动HDFS和YARN服务，在node1执行命令。-- 配置yarn主节点的位置 -->设置聚合日志在hdfs上的保存时间 -->

2024-03-16 16:52:04 864

原创 pySpark Case 1 words count

需求: 从HDFS中读取数据, 对数据进行统计分析(WordCount), 最后讲结果根据单词数量进行倒序排序, 并将结果写出HDFS上.start-all.sh //启动Hadoop集群, HDFS的Web页面地址是: node1:9870。创建 /pydata 文件夹, 然后把 words.txt 文件上传到该文件夹下即可.3. 去HDFS的中创建一个目录, 然后上传 words.txt文件到该目录下.1. 需要先把node1, node2, node3这三台机器给启动了.

2024-03-16 15:19:47 359

原创 tensorflow constant

首先我们载入tensorflow模块，如果需要，可以查看一下当前tf的版本import tensorflow as tfprint(tf.__version__)tensorflow是一种图计算框架，所有的计算操作被声明为图（graph）中的节点（Node）即使只是声明一个变量或者常量，也并不执行实际的操作，而是向图中增加节点a = tf.constant(5)b = tf.con...

2019-04-18 00:03:11 400

qq_43428465的博客