![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据PySpark学习笔记
文章平均质量分 95
Never-Giveup
这个作者很懒,什么都没留下…
展开
-
pyspark学习笔记(一):Spark Web UI的使用
spark Web UI是学习调试spark任务的入口,查看spark UI任务日志也是一项必备技能。启动pyspark以后,在本地浏览器访问localhost:4040界面,就会看到spark的任务UI界面,查看各任务的信息。其中IP和port可以在pyspark启动的时候进行指定,也可以通过其它方式进行配置。先来两个小demo瞅瞅demo1from pyspark import Spa...原创 2018-12-04 11:30:36 · 7406 阅读 · 0 评论 -
pyspark学习笔记: 一些环境配置问题
使用pyspark一些环境配置问题基本配置安装spark后,还需要修改Spark的配置文件spark-env.shcd /usr/local/sparkcp ./conf/spark-env.sh.template ./conf/spark-env.sh编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:export SPAR...原创 2019-01-01 21:23:40 · 11529 阅读 · 4 评论 -
Spark任务中如何确定park分区数、task数目、core数、worker节点个数、excutor数量
先来几个参考的博文,改天再总结,今天有点晚了参考https://blog.csdn.net/u012965373/article/details/80847543https://blog.csdn.net/mys_35088/article/details/80864092https://blog.csdn.net/zhangzeyuan56/article/details/809350...原创 2019-01-07 22:24:10 · 1471 阅读 · 0 评论 -
PySpark计算均值、方差、偏度和峰度
参考https://blog.csdn.net/u013555719/article/details/78530879https://blog.csdn.net/suzyu12345/article/details/79673473原创 2019-01-24 15:04:55 · 10058 阅读 · 0 评论 -
Spark作业提交的方式
在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度4)Mesos不管使用什么模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通...原创 2019-01-30 16:11:16 · 848 阅读 · 0 评论