![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
丰brother
这个作者很懒,什么都没留下…
展开
-
Spark开发环境搭建
1.安装idea scala 插件安装intelj IDEA并配置scala插件https://www.jetbrains.com/idea/IDEA安装完成后,安装scala插件:启动intelj -> 点击启动页configuration -> Plugins,或者file->setting->Plugins,搜索scala并安装插件。如果搜不到,可能是需要代理...原创 2019-05-05 23:01:06 · 175 阅读 · 0 评论 -
Hive数据入库
查看hadoop fs文件大小hadoop fs -du -h /data/source/查看hadoop fs文件目录hadoop fs -ls /data/source/查看hadoop fs文件夹内所有内容hadoop fs -cat /data/source/*将文件放入hdfshdfs dfs -copyFromLocal 本机文件目录 放入的hdfs目录hdf...原创 2019-05-06 11:49:40 · 1591 阅读 · 0 评论 -
spark sql算子数据类型
spark sql算子返回值数据类型介绍初始变量类型DataFrame加入persist()固化存储,运行速度更快val online_profile_score_df: DataFrame = profile_df.join(score_df, usingColumns =Seq("serv_number","statis_month")) .persist() //线...原创 2019-05-09 10:41:57 · 1556 阅读 · 0 评论 -
Maven方式建立Spark项目
建立maven项目porn.xml<?xml version="1.0" encoding="UTF-8"?><project xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd" xmlns:xsi="http://www....原创 2019-05-06 22:33:36 · 1780 阅读 · 0 评论 -
Spark各个版本WordCount介绍
Spark各个版本WordCount介绍spark分为3种数据类型:RDD,DataSet,DataFrame下面介绍使用3种不同数据类型的WordCount程序初始数据集:a,bc,ad,ba,d1. 初始变量类型RDD使用SparkContext读取文件方法: &...原创 2019-05-22 22:44:42 · 1032 阅读 · 0 评论 -
Hive删除表中数据
背景:当我们想要删除Hive表中部分符合条件的数据时:发现Hive表删除数据不能使用\color{red}{不能使用}不能使用DELETE FROM table_name 中SQL语句解决方案1.删除符合条件的数据:其中xxx是你需要保留的数据的查询条件。insert overwrite table t_table1 select * from t_table1 where XXX...原创 2019-07-12 15:39:33 · 6225 阅读 · 0 评论 -
Spark排序与取TopN问题
(一)TopN统计一.Hive sql实现方法需求描述:根据活跃天数排名,选取每个用户使用的Top10的appid与app名称思路解析:1.使用row_number()函数达到排序目的2.以用户的手机号为分组,(统计每一个用户的app排名),以活跃天数排序,排序字段命名为rn_vnt字段。并取出前十的app信息。 sql(sqlText = s"select serv_num...原创 2019-07-25 18:42:01 · 1842 阅读 · 0 评论