spark
一个想当作家的程序员
大数据开发工程师
博客主要方向
基础数据分析-基础算法-数据挖掘-人工智能相关算法-部分大数据基础与技术
展开
-
pyspark设置Hadoop参数
sc._jsc.hadoopConfiguration().set('my.mapreduce.setting', 'someVal')注意一个细节也不要放过链接来源:https://www.it1352.com/1934092.html转载 2021-08-19 19:44:07 · 740 阅读 · 0 评论 -
Pyspark UDF的几种方式
1.注册 可在sql中运行from pyspark.sql.types import *def pow1(m,n): return float(m)**float(n)udf = spark.udfudf.register('pow1',pow1,returnType=DoubleType())df = spark.range(0,10,2,3)df.createOrReplaceTempView('A')print spark.sql('select pow1(id,2) fr.原创 2021-08-06 19:02:59 · 2246 阅读 · 0 评论 -
StructType can not accept object u‘372063‘ in type <type ‘unicode‘> Can not infer schema for type: <
If you find the follwing errors:如果你发现了如下的错误Can not infer schema for type: <type 'unicode'>StructType can not accept object u'372063' in type <type 'unicode'>And you try all kinds ofStructType or scheam, the errors arealways here并...原创 2021-04-25 19:52:00 · 532 阅读 · 0 评论 -
spark 大数据相关 问题积累 未完待续
大量数据保存不成功问题Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):https://blog.csdn.net/weixin_43815790/article/details/89003870原创 2021-01-07 15:01:19 · 116 阅读 · 0 评论 -
Pyspark基础操作( rdd dataframe 创建 读取 利用)
Part1 Pyspark1.读取数据#enableHiveSupprot() 支持hive操作#getOrCreate() 如果没有就创建,有就不用了spark = SparkSession.builder.appName("appName").enableHiveSupport().getOrCreate()spark.sparkContext.pythonExec = spark.conf.get('spark.yarn.appMasterEnv.PYSPARK_PYTHON')pa原创 2020-12-06 22:58:33 · 2314 阅读 · 0 评论