自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 pyspark dataframe存hive表

##pyspark dataframez存hive表需要写入hive表的dataframe为df_write,需要写入名为course_table的hive表df_write.write.format("orc").mode("overwrite").saveAsTable("course_table")这种表方式不用关心原来名为course_table的表结构和现有表结构是否一致,该写法...

2019-08-20 16:26:48 4374

原创 pyspark datafram拆分多条,多项合并

pyspark dataframe 拆分多条,多项合并1.拆分多项,将dataframe单项按照特定分割符号才分成多条数据from pyspark.sql.types import StringTypefrom pyspark.sql.functions import udf,explode,split# 省略df_course的获取,这里举例为两列,第一列为课程ID,第二列为该门课所有...

2019-08-20 16:07:08 1193

原创 pyspark dataframe去重

pyspark dataframe 去重方法pyspark dataframe 去重整行去重某一列或者多列相同的去除重复pyspark dataframe 去重两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。整行去重dataframe1 = dataframe1.distinct()某一列或者多列相同的去除重复df = df.select("course_...

2019-08-16 10:36:40 11831 1

原创 pyspark dataframe的自定义函数处理 udf方法及空值异常

使用udf方法对dataframe的列使用自定义函数from pyspark.sql.types import StringTypefrom pyspark.sql.types import DoubleTypefrom pyspark.sql.functions import udfdef avg_score(score, people): try: if int(people)...

2019-07-03 16:04:40 4405

原创 pyspark的dataframe的单条件、多条件groupBy用法agg

pyspark groupBy方法中用到的知识点智能搜索引擎 实战中用到的pyspark知识点总结sum和udf方法计算平均得分avg方法计算平均得分count方法计算资源个数collect_list() 将groupBy 的数据处理成列表max取最大值min取最小值多条件groupBy求和sum智能搜索引擎 实战中用到的pyspark知识点总结项目中,先配置了spark,通过spark对象连...

2019-07-02 22:57:41 28446 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除