![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
maketubu7
这个作者很懒,什么都没留下…
展开
-
pyspark集群环境中jdk版本不兼容,python无相应模块的包的解决办法
问题:在某些情况下,我们会用到其他厂商的大数据平台,而我们是没有相关管理权限的,但是集群和我们已有的代码所需要的环境存在差异,所以我们要向集群设置我们自己的运行环境的参数等,主要解决方案如下1、对于pyspark,首先我们需要一个我们的相关的所有包的python虚拟环境,这里推荐anaconda的虚拟环境,里面包含很多科学计算的模块便于数据分析使用,在任意一台能联网的机器上创建一个con...原创 2020-05-08 14:54:08 · 1399 阅读 · 0 评论 -
pyspark 对RDD的相关api
1、aggregate,可以用来求平均值如下示例rdd2 = spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10])seqop = (lambda x,y: (x[0]+ y, x[1]+ 1)) #0+1 0+1 1+2 1+1 3+3 2+1cpmop= (lambda x,y: (x[0]+ y[0],...原创 2018-10-18 11:34:52 · 1361 阅读 · 0 评论 -
配置jupyter 虚拟机spark+python2.7.15
1、将默认的 phthon2.6.6 换成2.7.15 如下wget https://www.python.org/ftp/python/2.7.15/Python-2.7.15.tgztar -zxvf Python-2.7.15.tgzcd Python-2.7.15./configure --prefix=/usr/local/python2makemake ins...原创 2018-10-15 16:05:25 · 542 阅读 · 0 评论 -
python 身份证校验
国家校验码校验标准1、将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ;2、将这17位数字和系数相乘的结果相加;3、用加出来和除以11,看余数是多少;4、余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 ...原创 2018-10-09 13:16:26 · 8384 阅读 · 2 评论 -
工作中 pyspark的小知识点
1、df.na.fill({'字段名1':'default','字段名2':'default'}) 对空值进行替换2、df.dropDuplicaates() 去重根据字段名进行去重,空参为全部字段3、df.subtract(df1) 返回在当前df中出现,并且不在df1中出现的元素,不去重。4、print time.localtime([timestamp]) ...原创 2018-10-16 19:46:10 · 952 阅读 · 0 评论 -
jyputer notebook 与pyspark在本地windows的环境配置
1、下载anacond并安装,可以选择自动配置环境变量,也可以后面手动配置环境变量2、http://spark.apache.org/downloads.html下载spark的对应版本3、解压到一个指定的你想要存放的本地spark目录,自己创建,方便以后管理4、设置各种环境变量,如下这里 java scala 的环境配置不必要但是还是需要配置一下,特别注意这里的PYSP...原创 2019-04-12 20:08:47 · 650 阅读 · 0 评论