- 博客(5)
- 收藏
- 关注
原创 Spark编程与SparkSQL结构化数据文件处理
1.Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL和三种方式实现对结构化数据的处理。2.Spark SQL主要提供了以下三个功能ØSpark SQL可从各种结构化数据源中读取数据,进行数据分析。ØSpark SQL包含行业标准的JDBC和ODBC。
2024-05-13 19:43:02 2056 1
原创 spark 将RDD转DataFrame
创建DataFrame对象person需求:RDD转DataFrame且表头为id,name,age。1.在集群创建/spark目录,将创建的person.txt文件放入/spark目录下。2.进入spark,读取文件创建RDD。3.将RDD转换为DataFrame。person.txt内容如下。
2024-05-10 08:50:03 141
原创 spark编译打包步骤
2.定义jar包名称,双击右侧栏以“output”为后缀的文件到左侧,表示已添加工程至jar包中。6.将windows本地文件路径中保存的jar包拖入到xshell指定路径下。3.选择菜单栏中的“Build”->“Build Artifacts”选项。4.在弹窗中选择“yjw”->“Build”选项。7.输入命令提交Spark程序到集群。5.完成后将出现/out目录。
2024-05-10 08:41:16 259 1
原创 spark中部分关于RDD的转换操作
方法-将原RDD里和参数RDD里相同的元素去掉。使用键值对RDD的keys和values方法。使用values方法返回一个仅包含值的RDD。使用keys方法返回一个仅包含键的RDD。方法-求两个RDD的笛卡尔积。方法-求两个RDD交集。
2024-04-02 15:42:44 615
原创 关于spark的一些内容
与粗粒度模式一样,应用程序启动时,先会启动executor,但每个executor占用资源仅仅是自己运行所需的资源,不需要考虑将来要运行的任务,之后,mesos会为每个executor动态分配资源,每分配一些,便可以运行一个新任务,单个Task运行完之后可以马上释放对应的资源。存储和基础设施:Elasticsearch,MongoDB,Kafka,delta lake,kubernetes,Airflow,Parquet,SQL Server,cassandra,orc。
2024-03-04 17:38:11 1186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人