spark实践
文章平均质量分 78
beTree_fc
还行吧
展开
-
spark - 小实践(2)dataset实战
背景 spark官方example文件夹中提供了people.json的一份测试数据,并结合官方dataset使用方式的介绍,我们可以做一些练习,准备好的数据可以到这里下载:https://download.csdn.net/download/u013560925/10342251。 数据json读取时候的dataframe格式如下: people.json:对应用户姓名和...原创 2018-04-10 09:44:35 · 1216 阅读 · 0 评论 -
Intellij idea 创建Maven Spark工程
目录背景正文创建Maven工程打包过程添加SCALA支持 背景 Intellij idea开发Spark工程,本地依赖使用Maven进行管理,打包也是用Maven命令,依赖包需要和编译后的源代码同时包含到结果Jar包中。 正文创建Maven工程截图如下,就是用原生的Maven工程,不要选择下面其他的,scala和Java...原创 2018-09-19 17:23:16 · 3228 阅读 · 0 评论 -
IntelliJ IDEA中文乱码问题汇总
1.首先是编辑器的乱码,这个很好解决,file->settings->appearence里面有个Name设置成支持中文的字 体(这个很重要)同样还要再settings中的Eidtor->File Encodings里面设置字体编码格式,一般都是UTF-8,GBK什么的也行。2.日志打印console乱码问题使用Intellij idea 使用log4j 中i...原创 2018-09-12 18:18:26 · 1186 阅读 · 0 评论 -
Spark项目练习(实现自定义排序)
转载作者:Alen-Gao转载地址:https://blog.csdn.net/sonicgyq_gyq/article/details/79239946 在实际操作中,sortBy算子往往不能满足数据多种排序的需求,这就需要我们使用自定义排序来实现,以下是实现简单的自定义排序的两种方法,起到抛砖引玉的作用。第一种方法:(Ordered:自定义一个函数)[plain] view plain co...转载 2018-05-28 16:43:17 · 751 阅读 · 0 评论 -
spark - 小实践(5)倒排索引
finalRDD: Array[(String, String)] = Array((spark,Spark大数据分析实战), (日志分析,Spark大数据分析实战 hadoop实战), (mapreduce,hadoop实战 大数据实战), (hdfs,hadoop实战 大数据实战), (大数据,Spark大数据分析实战 hadoop实战), (namenode,hadoop实战 大数据实战),...原创 2018-05-15 21:54:17 · 2084 阅读 · 0 评论 -
Spark dataset api 列表 & 练习
背景 正文1.groupBy()a.使用方法按照某几列元素进行分组dataset.groupBy("columnName","columnName")dataset.groupBy(dataset("columnName"))b.注意事项 运算完成之后,返回的不是普通的DataSet数据类型,而是org.apache.spark.sql.RelationalGroupedData...原创 2018-05-26 15:52:50 · 11216 阅读 · 3 评论 -
Spark高级算子练习(一)aggregate
转载作者:Allen-gao转载地址:https://blog.csdn.net/sonicgyq_gyq/article/details/79169229aggregate讲解地址:https://blog.csdn.net/tolcf/article/details/51900440关键:pairRDD.aggregateByKey(0)(_ + _ , _ + _).collect与pair...转载 2018-05-20 10:56:46 · 1289 阅读 · 0 评论 -
Spark - 小实践(6)计算手机在基站停留时间
背景 原文转自作者Allen-Gao的一位博主,使用的api是RDD计算,文章最后附上我的和原博主的代码。 项目说明:附件为要计算数据的demo。附件(免费) 其中bs_log文件夹数据格式为(手机号,时间戳,基站ID,连接状态(“1”为连接,“0”为断开)) lac_info.txt 文件数据格式为(基站ID,...转载 2018-05-20 10:24:53 · 1234 阅读 · 0 评论 -
spark - 电影信息挖掘小实践(1)
背景 网上有一些公开的数据集,可以供我们使用,做一些联系,本次使用的是常见的电影评分数据集,数据集比较容易获取,百度即可,这里只给出电影数据集的格式: 1.users.dat UserID::Gender::Age::Occupatoin::Zip-Code2.ratings.datUserID::MovieID::Rating::Timestamp3.movies.datMovieI...原创 2018-04-06 11:29:08 · 1103 阅读 · 1 评论 -
spark - 小实践(3)用户消费记录信息挖掘
背景 本次将使用某网站的消费和访问记录来进行相关用户行为的挖掘练习,相关测试数据文件已经上传csdn,下载地址:https://download.csdn.net/download/u013560925/10342224a.数据格式 本次使用数据分为json和parquet两种,parquet作为列式存储,在存储空间和运行效率上都非常有优势,很适合用在工业生产中,详情见...原创 2018-04-11 20:07:29 · 33208 阅读 · 0 评论 -
Spark transform操作的非常规使用 - SparkContext.runJob()方法的调用
前文 一般场景中,Spark计算任务中transform相关的操作都是由action进行触发的,常见的的比如write、collect、show等,或者在数据处理的过程中调用的groupbykey等API,进行shuffle数据重新分发,在提交任务时会把transform的操作作为前置任务进行提交,但是单纯的transform操作是无法触发spark计算任务的。 但是,单纯由...原创 2019-05-28 20:39:14 · 1916 阅读 · 0 评论