pyspark应用技术
文章平均质量分 79
m0_59811476
这个作者很懒,什么都没留下…
展开
-
01 Pycharm连接服务器Python环境操作Spark
添加SPARK_HOME 和 PYTHONPATH 环境变量。如图可自行选择项目的存放位置;Python解释器默认即可。使用hdfs命令将其上传至hdfs文件系统中。首先创建一个python项目。### 选择 onssh方式。选择ip地址和对应的用户名。一直下一步(next)即可。配置同步项目文件夹位置。统计文本各单词出现频率。原创 2024-04-16 14:08:38 · 522 阅读 · 1 评论 -
02. PySpark3程序入口
##业务代码##停止SparkSession释放资源。原创 2024-04-23 14:49:12 · 478 阅读 · 2 评论 -
03 Spark Core基础概念
对DAG进行解析时,在依赖图中进行反向解析,由于从RDD A到RDD B的转换以及从RDD B和F到RDD G的转换,都属于宽依赖,因此,在宽依赖处断开后可以得到三个阶段,即阶段1、阶段2和阶段3。下图RDD 执行过程的实例。需要说明的是,RDD采用了惰性调用(lazy模式),即在RDD的执行过程中(如下图所示),真正的计算发生在RDD的“行动”操作,对于“行动”之前的所有“转换”操作,Spark只是记录下“转换”操作应用的一些基础数据集以及RDD生成的轨迹,即相互之间的依赖关系,而不会触发真正的计算。原创 2024-04-24 21:54:14 · 1017 阅读 · 5 评论 -
04 Spark SQL
大数据领域,SQL 的重要性无需多言,甚至称得上是“万物皆可 SQL 化”。不管是做平台的,还是做应用的,都免不了跟 SQL 打交道。大数据工程师们跟 SQL 的关系紧密。从 Hive/Spark SQL 等最原始、最普及的 SQL 查询引擎,到 Kylin/ClickHouse 等 OLAP 引擎,再到流式的 Flink SQL/Kafka SQL,大数据的各条技术栈,都在或多或少地往 SQL 方向靠拢。缺乏对 SQL 的支持会让自身的技术架构逊色不少,同时也会影响使用的便利性。原创 2024-04-25 09:48:24 · 847 阅读 · 4 评论