![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
二の少
进击的程序猿
展开
-
pyspark:win10本地安装pyspark环境(hadoop2.7.7+pyspark2.4.3+spark2.4.3)
1.下载地址(官方下载太慢了,用镜像下载较快) https://mirrors.tuna.tsinghua.edu.cn/apache/ 下载hadoop2.7.7,pyspark2.4.3,spark2.4.3版本 2.解压压缩包 如果在win10本地运行,需要将这两个文件拷贝到hadoop目录的bin目录下 hadooponwindows-master\bin中的winut...原创 2019-07-20 13:47:23 · 1533 阅读 · 1 评论 -
pyspark:创建dataFrame并查询数据
(1)创建json的RDD文件,路径文件名不能以数据开头(\会作为转义字符,需要将路径中的\进行转义) strjson=sc.parallelize(“**”)(或者strjson=sc.textFile(E:\data.txt)) (2)创建dataFrame Swimjson=spark.read.json(strjson) (3)创建临时表括号中的为表名 Swimjso...原创 2019-07-20 23:52:38 · 1322 阅读 · 0 评论