pyspark
南之一舟
这个作者很懒,什么都没留下…
展开
-
python2.7 pyspark显示以及插入hive表中文编码问题
我用python2.7的环境下读取excel,这个时候print pandas的dataframe时中文是可以显示的,说明不是python2.7的问题,然后将其转换成spark的dataframe的时候,show或者write到hive表的时候出现了中文乱码,这个时候我使用了pyspark.sql.functions.decode和encode函数,首先将它从utf-8进行解码,然后以ISO-8859-1进行编码,此时中文可以正常显示。 df = df.withColumn(column,encode(d原创 2020-12-28 20:03:35 · 952 阅读 · 0 评论 -
spark sql使用了UDF生成了新列造成后续使用该新列的时候出现重新使用一次UDF
出现这种情况的原因是因为UDF默认是确定性(deterministic)的,即每一次输入都是确定的,不确定性(nondeterministic)是每一次输入都是不确定的,spark里只需要在udf后面.asNondeterministic()就可以改成不确定性了。 目的是为了消除重复性操作 ...原创 2020-08-27 11:59:35 · 447 阅读 · 0 评论 -
无法在IDEA上导入pyspark.sql.functions.col或lit之类的内置函数解决方法
无法在IDEA上导入pyspark.sql.functions.col或lit之类的内置函数解决方法 ******只需要下载pyspark-stubs 的包************* pip --default-timeout=1000 install pyspark-stubs==2.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple/ 我的pyspark是2.3.0版本的,自己可以根据自己的版本设置 ...原创 2020-08-20 11:46:45 · 856 阅读 · 2 评论