Spark
Arlison ^O^ ???
这个作者很懒,什么都没留下…
展开
-
count(1)、count(*)与count(列名)的执行区别
https://blog.csdn.net/haijiege/article/details/85006780执行效果:count(1) and count(*)当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count()用时多了!从执行计划来看,count(1)和count()的效果是一样的。 但是在表做过分析之后,count(1)会比count(*)的用时少些(1w以内数据量),不过差不了多少。如果count(1)是聚索引,id,那肯定是count(1)快。但是差的很小原创 2020-05-25 13:49:37 · 180 阅读 · 0 评论 -
pyspark编程基础
python提交:cmd --> python py-file-path(no space in path directory)spark提交: cmd --> spark-submit py-file-path(no space in path directory)修改日志设置以减少显示提示信息,只显示结果和错误信息:...原创 2019-12-26 10:53:00 · 698 阅读 · 0 评论 -
Pandas Percentile计算方法
计算方法与举例为了更一般化,在计算的过程中,我们考虑p分位。当p=0.25 0.5 0.75 时,就是在计算四分位数。首先确定p分位数的位置(有两种方法):方法1 pos = (n+1)*p方法2 pos = 1+(n-1)*ppandas 中使用的是方法2确定的。计算df = pd.DataFrame(np.array([[1, 1], [2, 10], [3, 100], [4...原创 2019-12-24 15:22:27 · 7182 阅读 · 1 评论 -
Hadoop以及spark安装on windows
厦大Hadoop安装(Linux):http://dblab.xmu.edu.cn/blog/install-hadoop/Java安装路径不能包含空格!!!JAVA配置环境变量使用Windows的软连接:在Windows的命令终端(cmd)中,使用命令:创建软连接:mklink /J C:\myJava “C:\Program Files\Java\jdk1.8.0_221”...原创 2019-12-23 20:43:48 · 207 阅读 · 0 评论 -
sum over partition by 的用法
sum over partition by 的用法: https://blog.csdn.net/zhuiqiuuuu/article/details/79088709count(*) over(partition by…的用法记录:https://blog.csdn.net/sinat_19671783/article/details/73925833...原创 2019-12-20 14:02:16 · 528 阅读 · 0 评论 -
Pyspark修改提示信息显示
from pyspark import SparkContext,SparkConfconf = SparkConf().setMaster('local[4]').setAppName('My App')sc = SparkContext(conf = conf)logger = sc._jvm.org.apache.log4jlogger.LogManager.getLogger(...原创 2019-12-18 14:27:27 · 461 阅读 · 0 评论 -
Spark 官方文档——Configuration配置
官方文档:http://spark.apache.org/docs/latest/configuration.htmlConfiguration配置:https://www.cnblogs.com/bigbigtree/p/5685298.htmlhttps://www.cnblogs.com/bigbigtree/category/850078.html原创 2019-12-14 13:34:19 · 388 阅读 · 0 评论