python如何从一个dataframe提取相应的行组成一个新的dataframe_Spark快速入门（使用Python）...

最新推荐文章于 2022-06-10 19:28:09 发布

weixin_39627661

最新推荐文章于 2022-06-10 19:28:09 发布

阅读量1.1k

点赞数

文章标签： python如何从一个dataframe提取相应的行组成一个新的dataframe

本文介绍了Spark的基本概念，包括RDD和DataFrame的操作。通过Python展示了如何创建、转化和行动RDD，以及如何使用Spark SQL进行数据查询。还涵盖了RDD的持久化、DataFrame的创建与常用操作，以及在Hive上下文中使用Spark SQL的方法。

摘要由CSDN通过智能技术生成

需要用到spark，特地写一个文章作为入门总结。

环境介绍：

简单地说，spark扩展了MapReduce计算模型，数据在内存中并行式计算。

①验证java是否安装：java -version，已安装为java1.8.0。

②验证Scala是否安装：scala -version。

如果未安装scala，scala的安装步骤：

1）下载scala，下载网址：https://www.scala-lang.org/download/，本次选择了scala-2.13.1.tgz文件。
2）执行命令tar -zxvf scala-2.13.1.tgz。
3）设置环境变量：切换到root账户，在/etc/profile文件中配置export SCALA_HOME=/home/grid/scala和export PATH=$PATH:$SCALA_HOME/bin，然后source /etc/profile，gird账户也需要source /etc/profile。
4）scala -version验证是否安装成功。

③下载和安装spark：