柯希莫
码龄6年
关注
提问 私信
  • 博客:8,159
    动态:6
    8,165
    总访问量
  • 11
    原创
  • 1,527,047
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:云南省
  • 加入CSDN时间: 2018-11-17
博客简介:

qq_43718871的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得0次评论
  • 获得9次收藏
创作历程
  • 9篇
    2020年
  • 2篇
    2019年
成就勋章
TA的专栏
  • 大数据
    7篇
兴趣领域 设置
  • 大数据
    mysqlredis
  • 后端
    spring架构
  • 服务器
    linux
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

rdd利用groupbykey计算平均值

例子var ArrayRdd=sc.parallelize(Array((“b”,10),(“a”,20),(“c”,10),(“b”,30),(“b”,40))ArrayRdd.groupbykey().map(x=>{(x._1,x._2.sum/z._2.size)}).foreach(println)
原创
发布博客 2020.04.14 ·
1293 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hive-on-Spark

1.修改 hive/conf/hive-site.xml 新增如下配置<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> <pro...
原创
发布博客 2020.04.14 ·
206 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark SQL多数据源交互

写数据package WR_sourceimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}import spark_sq...
原创
发布博客 2020.04.13 ·
240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark SQL自定义函数 UDF UDAF

直接上代码UDF 一进一出package sparksql_udfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SparkSession}object sparkSqlUDF { def main(args: Ar...
原创
发布博客 2020.04.13 ·
212 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

创建DataFrame/DataSet的三种方法

创建DataFrame/DataSet的三种方法下面直接copy代码**List item第1种:指定列名添加Schema**package spark_sqlimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{Intege...
原创
发布博客 2020.04.13 ·
1148 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

scala函数式编程之下划线_

scala函数式编程中可使用下划线来简化函数的定义,具体的规范是这样说的:当函数参数,只在函数体中出现一次,而且函数体没有嵌套调用时,可以使用下划线来简化函数定义。下面举个错误的例子:上面的例子就是错误的,因为map方法的参数只是一个,在方法体((1),(5))中却出现了两次,这与下划线的规范定义就不同了。所以正确的写法该是这样——不使用下划线简化:我们再来看看reduce方法:...
原创
发布博客 2020.04.05 ·
295 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

rdd利用reducebykey计算平均值

原创
发布博客 2020.04.04 ·
2320 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hdfs常用命令实操

简单BJ,方便查询(1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls:显示目录信息hdfs dfs-ls /(3)-mkdir:在hdfs上创建目录hdfs dfs-mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘贴到hdfshdfs dfs-moveFromLocal...
原创
发布博客 2020.02.28 ·
107 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hbase过滤器添加多个过滤条件

hbase过滤器添加多个过滤条件一创建一个 FilterList 对象,并添加所需的所有过滤器,并设置此 FilterList 对象作为过滤器。您可以使用构造函数或使用 addFilter()方法将过滤器添加到过滤器列表。FilterList filterList = new FilterList();filterList.addFilter(new RowFilter(…));filt...
原创
发布博客 2020.01.06 ·
2051 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Linux JDK安装部署

第一步上传1.8jdk的压缩包,并解压文件上传路径/export/softjdk解压路径/export/install第二步在/etc/profile.d/目录下创建java.sh文件,在该文件内编辑环境变量export JAVA_HOME=/export/install/jdk1.8.0_144export PATH:PATH:PATH:PATH:JAVA_HOME/bin说明...
原创
发布博客 2019.10.18 ·
94 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

常用管道相关命令

常用管道相关命令cut释义:根据条件从命令结果中提取对应内容参数:-c : 按字符选取行中内容-d ’ ‘:指定以’ '中内容为分割符-f n1 ,n2 :分割后显示第几段的内容、sort释义:sort可针对文本文件的内容来排序-u :去重-n :按照数值大小排序-r :使次序颠倒例:[root@node01 tmp]# sort -nr 2.txt-t...
原创
发布博客 2019.10.17 ·
193 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏