头发又黑又密
码龄6年
关注
提问 私信
  • 博客:51,210
    51,210
    总访问量
  • 5
    原创
  • 2,289,007
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-08-02
博客简介:

weixin_42864239的博客

查看详细资料
个人成就
  • 获得14次点赞
  • 内容获得2次评论
  • 获得63次收藏
创作历程
  • 5篇
    2019年
成就勋章
TA的专栏
  • pyspark
    4篇
兴趣领域 设置
  • 人工智能
    深度学习神经网络自然语言处理tensorflownlp数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

pyspark dataframe存hive表

##pyspark dataframez存hive表需要写入hive表的dataframe为df_write,需要写入名为course_table的hive表df_write.write.format("orc").mode("overwrite").saveAsTable("course_table")这种表方式不用关心原来名为course_table的表结构和现有表结构是否一致,该写法...
原创
发布博客 2019.08.20 ·
4455 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

pyspark datafram拆分多条,多项合并

pyspark dataframe 拆分多条,多项合并1.拆分多项,将dataframe单项按照特定分割符号才分成多条数据from pyspark.sql.types import StringTypefrom pyspark.sql.functions import udf,explode,split# 省略df_course的获取,这里举例为两列,第一列为课程ID,第二列为该门课所有...
原创
发布博客 2019.08.20 ·
1269 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

pyspark dataframe去重

pyspark dataframe 去重方法pyspark dataframe 去重整行去重某一列或者多列相同的去除重复pyspark dataframe 去重两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。整行去重dataframe1 = dataframe1.distinct()某一列或者多列相同的去除重复df = df.select("course_...
原创
发布博客 2019.08.16 ·
12071 阅读 ·
1 点赞 ·
1 评论 ·
8 收藏

pyspark dataframe的自定义函数处理 udf方法及空值异常

使用udf方法对dataframe的列使用自定义函数from pyspark.sql.types import StringTypefrom pyspark.sql.types import DoubleTypefrom pyspark.sql.functions import udfdef avg_score(score, people): try: if int(people)...
原创
发布博客 2019.07.03 ·
4514 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

pyspark的dataframe的单条件、多条件groupBy用法agg

pyspark groupBy方法中用到的知识点智能搜索引擎 实战中用到的pyspark知识点总结sum和udf方法计算平均得分avg方法计算平均得分count方法计算资源个数collect_list() 将groupBy 的数据处理成列表max取最大值min取最小值多条件groupBy求和sum智能搜索引擎 实战中用到的pyspark知识点总结项目中,先配置了spark,通过spark对象连...
原创
发布博客 2019.07.02 ·
28901 阅读 ·
9 点赞 ·
1 评论 ·
46 收藏