python如何从一个dataframe提取相应的行组成一个新的dataframe_Spark快速入门(使用Python)...

c47326bf15abbd638b8be1d13881e8e5.png

1 文章说明

需要用到spark,特地写一个文章作为入门总结。

环境介绍:

  • 系统:centos7
  • python:python2.7.5
  • java:java1.8.0
  • hadoop:hadoop2.7
  • spark:spark3.0
  • 参考文档:http://spark.apache.org/docs/latest/quick-start.html

2 spark简介

简单地说,spark扩展了MapReduce计算模型,数据在内存中并行式计算。

3 安装spark

①验证java是否安装:java -version,已安装为java1.8.0。

②验证Scala是否安装:scala -version。

如果未安装scala,scala的安装步骤:

  • 1)下载scala,下载网址:https://www.scala-lang.org/download/,本次选择了scala-2.13.1.tgz文件。
  • 2)执行命令tar -zxvf scala-2.13.1.tgz。
  • 3)设置环境变量:切换到root账户,在/etc/profile文件中配置export SCALA_HOME=/home/grid/scala和export PATH=$PATH:$SCALA_HOME/bin,然后source /etc/profile,gird账户也需要source /etc/profile。
  • 4)scala -version验证是否安装成功。

③下载和安装spark:

  • 1)本次下载的是spark-3.0.0-preview-bin-hadoop2.7.tgz。
  • 2)解压文件,tar -zxvf spark-3.0.0-preview-bin-hadoop2.7.tgz。
  • 3)输入spark-shell进入到spark,py
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值