spark
文章平均质量分 87
热心市民小李同学
这个作者很懒,什么都没留下…
展开
-
【创建RDD】
在目录里创建单词用空格分隔将上传到HDFS的目录里查看文件内容可以参考《sc.textFile()默认读取本地系统文件还是HDFS系统文件?》如果以 方式启动spark-shell,只能读取HDFS系统上的文件,不能读取本地系统文件,而以方式启动spark-shell,既可以读取本地系统文件,加不加都可以,还可以访问HDFS系统上的文件,但是必须加上。执行命令:查看Spark Shell的WebUI界面, 执行命令:执行命令:,收集rdd数据进行显示其实,行动算子[action operat原创 2022-06-20 13:59:59 · 454 阅读 · 0 评论 -
【Spark SQL案例分析】
创建Maven项目 - (四)修改源目录名称将源目录名由改成在文件里,设置源目录添加原创 2022-06-19 21:20:21 · 121 阅读 · 0 评论 -
【Spark Streaming概述】
创建Maven项目 - 基于生成项目填写项目相关内容将目录改成目录4、创建日志属性文件在目录里创建文件5、创建流式词频统计单例对象创建包在包里创建单例对象6、在master虚拟机上启动nc执行命令:等待用户输入一行又一行的数据启动流式词频统计单例对象,然后在master虚拟机上输入一行又一行的数据先启动程序回到虚拟机,输入数据因为强行停止程序,所以退出码是可以看到,每隔3秒,对分段流中的RDD进行词频统计……......原创 2022-06-19 18:12:12 · 176 阅读 · 0 评论 -
【Spark Streaming数据源】
在HDFS上创建监测目录待会儿需要将目录里的与文件拷到监测目录基于创建Maven项目 - 填写项目相关内容将目录改成目录创建日志属性文件 - 添加相关依赖和构建插件创建包在包里创建单例对象启动程序之后,将HDFS目录里的和文件拷贝到目录过一会儿,停止程序,查看控制台输出信息先对文件进行了词频统计,再对文件进行了词频统计注意:第一个文件词频统计结果默认显示前10条,第二个文件词频统计结果只有9条删除目录里的文件修改,不用通用文件流,而用文本文件流启动程序后,将HD原创 2022-06-19 16:30:57 · 86 阅读 · 0 评论 -
【DataFrame与Dataset】
2、Spark SQL以相同方式连接多种数据源Spark SQL提供了访问各种数据源的通用方法,数据源包括、、、、、等。读取HDFS中的JSON文件,基于文件内容创建临时视图,最后与其他表根据指定的字段关联查询3、在现有数据仓库上运行SQL或HiveQL查询Spark SQL支持语法以及和(用户自定义函数),允许访问现有的Hive仓库。二、数据帧 - DataFrame(一)DataFrame概述DataFrame是Spark SQL提供的一个编程抽象,与RDD类似,也是一个分布式原创 2022-06-19 00:29:51 · 288 阅读 · 0 评论 -
【Spark RDD案例:统计每日新增用户】
2022-01-01mikealicebrown2022-01-02mikealicegreen2022-01-03alicesmithbrian现需要根据上述数据统计每日新增的用户数量,期望统计结果:即2022-01-01新增了3个用户(分别为mike、alice、brown),2022-01-02新增了1个用户(green),2022-01-03新增了两个用户(分别为smith、brian)。二、实现思路使用倒排索引法,若将用户名看作关键词,访问日期原创 2022-06-18 22:57:33 · 128 阅读 · 0 评论 -
【Spark SQL案例:分组排行榜】
同一个学生有多门成绩,现需要计算每个学生分数最高的前3个成绩,期望输出结果如下所示:数据表执行查询预备工作:启动集群的HDFS与Spark将成绩文件 - 上传到HDFS上目录设置项目信息(项目名、保存位置、组编号、项目编号)单击【Finish】按钮将目录改成目录...原创 2022-06-18 08:56:32 · 109 阅读 · 0 评论 -
Spark RDD:分组排行榜
@同一个同学有多门成绩,现在需要计算每个学生的分数最高的前三个成绩,期望输出结果如下所示:实现思路:使用Spark RDD的算子可以对(key, value)形式的RDD按照key进行分组,key相同的元素的value将聚合到一起,形成(key, value-list),将value-list中的元素降序排列取前N个即可。二、完成任务预备工作:启动集群的HDFS与Spark将成绩文件 - 上传到HDFS上目录(一)、新建Maven项目设置项目信息(项目名、保存位置、组编号原创 2022-06-17 22:47:46 · 641 阅读 · 1 评论 -
【spark RDD词频统计】
单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。预备工作:启动集群的HDFS与SparkHDFS上的单词文件 - 新建Maven项目,基于JDK1.8设置项目信息(项目名称、保存位置、组编号以及项目编号)...原创 2022-06-17 20:31:50 · 760 阅读 · 0 评论 -
【Spark 计算成绩平均分】
spark成绩表 - django成绩表 - 在集群上打开与在hdfs创建文件夹在虚拟机上面创建三个成绩文件设置项目信息(项目名、保存位置、组编号、项目编号)单击【Finish】按钮将java目录改成scala目录(三)创建日志属性文件在资源文件夹里创建日志属性文件 - (四)创建计算平均分单例对象将目录改成目录在包里创建单例对象(五)本地运行程序,查看结果在控制台查看输出结果......原创 2022-06-17 11:40:41 · 723 阅读 · 0 评论