呕吼a
码龄2年
关注
提问 私信
  • 博客:2,826
    动态:38
    2,864
    总访问量
  • 4
    原创
  • 1,107,148
    排名
  • 43
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2022-10-22
博客简介:

m0_74459849的博客

查看详细资料
  • 原力等级
    当前等级
    1
    当前总分
    59
    当月
    0
个人成就
  • 获得83次点赞
  • 内容获得2次评论
  • 获得45次收藏
创作历程
  • 4篇
    2024年
成就勋章
兴趣领域 设置
  • Java
    eclipse
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Spark笔记

(3)first()/head()/take()/takeAsList():获取若干条记录。方式2:var gsj:Array[String] = Array(元素1,元素2,…(2)select()/selectExpr()/col()/apply()方法。(4)collect()/collectAsList():获取所有数据。takeAsList(n):获取前n条记录,并以列表的形式展现。limit():获取指定DataFrame数据的前n条记录。15.使用键值对RDD的groupByKey()方法。
原创
发布博客 2024.05.11 ·
619 阅读 ·
24 点赞 ·
2 评论 ·
10 收藏

maven笔记

- 打包方式,web工程打包为war,Java工程打包为jar-->mvn install #安装到本地仓库。mvn compile #编译。-- 依赖所属项目id-->mvn clean #清理。--设置当前工程的所有依赖d-->mvn test #测试。-- 依赖所属群组id-->--指定pom的模型版本-->--依赖版本号-->-- 具体的插件配置-->-- 组织id-->-- 项目id-->-- 当前依赖-->-- 设置插件-->
原创
发布博客 2024.05.10 ·
585 阅读 ·
18 点赞 ·
0 评论 ·
10 收藏

Spark RDD实操

创建rdd4,首先用filter()方法过滤去除100以下的数据,之后再用distinct()方法去重输出。首先创建rdd1与rdd2,用union()方法合并rdd1与rdd2放在rdd3中。创建g_rdd1,用groupByKey()方法对具有相同的值进行分组,将相同键的值的数量输出。创建rdd6,先用distinct()方法去重,再用cartesian()方法输出笛卡尔积。创建rdd1与rdd2,用union()方法将rdd1和rdd2放在rdd4中。用distinct()方法去重。
原创
发布博客 2024.04.01 ·
516 阅读 ·
9 点赞 ·
0 评论 ·
10 收藏

spark初学

Spark官网:http://sparkSpark是新一代轻量级大数据处理平台Spark特点快速Spark运行速度快的原因是Spark的中间数据存放在内存中易用Spark支持多种语音的交互模式界面通用Spark框架包含多个紧密集成的组件,涵盖了机器学习、图形算法、流式计算、SQL查询和迭代计算等多种功能,组件间无缝、紧密地集成,一站式解决工作流中的问题。随处运行用户可以使用Spark的独立集群模式运行Spark,也可以在EC2(亚马逊弹性计算云)、Hadoop。
原创
发布博客 2024.03.04 ·
1063 阅读 ·
32 点赞 ·
1 评论 ·
15 收藏