spark学习之路
文章平均质量分 63
炽天使YRLT
这个作者很懒,什么都没留下…
展开
-
Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession
这是由于pom.xml文件中scope标签导致的,去掉该标签即可。原创 2022-07-19 09:49:40 · 592 阅读 · 0 评论 -
spark程序报错Exception in thread “main“ java.lang.NoSuchMethodError: scala.Predef$.refArrayOps
Exception in thread “main” java.lang.NoSuchMethodError: scala.Predef$.refArrayOps原创 2022-07-12 13:32:29 · 858 阅读 · 0 评论 -
利用spark MLlib实现电影推荐
推荐模型分类目前最流行的推荐系统所应用的算法是协同过滤,这项技术填补了关联矩阵的缺失项,从而实现了更好的推荐效果,它是利用大量已有用户偏好,来估计用户对其未接触的物品的喜好程度。它包含两个分支:1 基于物品的推荐(itemCF)基于物品的推荐是利用现有用户对物品的偏好或是评级情况,计算物品之间的某种相似度,以用户接触过的物品来表示这个用户,然后寻找出和这些物品相似的物品,并将这些物品推荐给用户。2 基于用户的推荐(userCF)对用户历史行为的数据分析,如购买,收藏的商品,评论内容或搜索内容,通原创 2022-05-04 15:37:17 · 2845 阅读 · 0 评论 -
spark MLlib机器学习算法库
MLlib采用Scala语言编写,借助了函数式编程设计思想,开发人员在开发的过程中只需要关注数据,而不需要关注算法本身,因为算法都已经集成在里面了,所以只需要传递参数和调试参数。MLlib主要包含两部分,分别是底层基础和算法库。其中底层基础包括spark的运行库、矩阵库、和向量库,向量接口和矩阵接口是基于Netlib和BLAS/LAPACK开发的线性代数库Breeze;算法库包括分类、回归、聚类、协同过滤和特征提取等算法。spark中的机器学习流程大致分3个阶段,数据准备阶段训练模型评估阶段部署预原创 2022-04-29 16:49:18 · 1062 阅读 · 0 评论 -
spark sql结构化数据文件处理-dataframe
spark sql这个类似于hive为mapreduce提供上层接口,使数据分析师可以不必为写mapreduce的Java代码而烦恼,同样并不是所有工程师都会Scala语言,所以spark sql就是做这个事情的。spark sql是spark用来处理结构化数据的模块,它提供一个叫dataframe的编程抽象结构数据模型(带有schema信息的RDD),用户可以通过sql,dataframe API,dataset api三种方式现在讲dataframedataframe的创建spark.read原创 2022-04-16 15:32:23 · 2355 阅读 · 0 评论 -
spark RDD弹性分布式数据集
创建val test=sc.textFile("file:///home/zl/word.txt")用hdfs创建val test2=sc.textFile("/spark/word.txt")转换算子filter(func) 过滤map(func) 将每个元素传递到函数中,返回一个新的数据集flatMap(func) groupByKey() 应用于(k,v)reduceByKey(func) 汇聚行动算子count() 返回数据集元素个数first() 取第一个元素ta原创 2022-04-14 13:37:19 · 1128 阅读 · 0 评论