大数据相关
文章平均质量分 53
Mr_Hzz
这个作者很懒,什么都没留下…
展开
-
spark常用命令 Spark SQL – map() vs mapPartitions() | flatMap()
注意1:DataFrame没有可与DataFrame一起使用的map()转换,因此您需要先将DataFrame转换为RDD。 注意2:如果您有大量初始化,请使用PySpark mapPartitions()转换而不是map(),就像mapPartitions()一样,大量初始化仅对每个分区执行一次,而不对每个记录执行一次。 map()例子1 首先,让我们从列表中创建一个RDD。 from pyspark.sql import SparkSession spark = SparkSession.bu.原创 2021-04-03 11:46:29 · 544 阅读 · 1 评论 -
个人linux常用命令
jupyter出现问题 delete重启 kubectl delete po jupyter-***** 压缩|解压 tar -zcvf 文件名.tar.gz tar -zvxf文件名.tar.gz 删除 rm -rf 移动 mv 目录 目标目录 去csv文件前10行 head -n 10 文件名.csv df -h /root/data命令得到容量 Linux重定向用法详解 - 简书https://www.jianshu.com/p/6...原创 2021-03-30 14:49:46 · 46 阅读 · 0 评论 -
spark常用命令&操作(简单例子)——pyspark
快速入门pyspark教程 https://sparkbyexamples.com/pyspark/pyspark-read-csv-file-into-dataframe/ 进行大量计算前,采用 变量名.cache() 加快运行速度。 不适用jupyter时,运行spark.stop() 关闭spark 1.代码运行时,通过Spark UI 网页查看当前进行程度 2.读写parquet文件为DataFrame Pyspark将Parquet文件读入DataFrame ...原创 2021-03-30 14:46:25 · 1354 阅读 · 0 评论