![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark技术中级
文章平均质量分 56
spark graphx、spark mlib
惜于情
这个作者很懒,什么都没留下…
展开
-
算法应用-逻辑回归的使用
实验名称算法应用-逻辑回归的使用实验目的掌握Pipeline、逻辑回归的用法实验原理(1)Pipeline:将Pipeline多个Transformers和Estimators 链在一起以指定ML工作流程。(2)逻辑回归:在线性回归增加了一个函数g(z),能够把连续值映射到几个离散的数据,如:0、1等。实验环境VMware WorkstationUbuntu 16.04PycharmPyspark实验步骤from pyspark.ml import Pipelinefr原创 2021-06-04 22:01:26 · 170 阅读 · 1 评论 -
算法-K-Means的使用
实验名称算法-K-Means的使用实验目的掌握K-Means的用法实验原理(1)K-Means选择K个点作为初始质心repeat将每个点指派到最近的质心,形成K个簇重新计算每个簇的质心until 簇不发生变化或达到最大迭代次数。实验环境VMware WorkstationUbuntu 16.04PycharmPyspark实验步骤from pyspark.ml.clustering import KMeansfrom pyspark.ml.evaluation原创 2021-06-04 21:56:16 · 208 阅读 · 0 评论 -
基于MLlib的商品推荐
实验名称基于MLlib的商品推荐实验目的掌握基于Spark MLLib的协同过滤:基于用户(User-Based)的协同过滤基于物品(Item-Based)的协同过滤基于ALS协同过滤实验环境VMware WorkstationUbuntu 16.04PycharmPyspark实验步骤#-*-coding:utf-8from pyspark import SparkContextfrom pyspark.mllib.recommendation import A原创 2021-06-04 21:54:26 · 109 阅读 · 0 评论 -
基于MLlib的电影推荐
实验名称基于MLlib的电影推荐实验目的掌握基于Spark MLLib的协同过滤:基于用户(User-Based)的协同过滤基于物品(Item-Based)的协同过滤基于ALS协同过滤实验原理(1)基于用户的CF(User CF)基于用户的 CF 的基本思想相当简单,基于用户对物品的偏好找到相邻邻居用户,然后将邻居用户喜欢的推荐给当前用户。计算上,就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,找到 K 邻居后,根据邻居的相似度权重以及他们对物品的偏好,预测当前用户没原创 2021-06-04 21:53:12 · 240 阅读 · 0 评论 -
基本概念-本地向量、转换器、评估器、参数
实验名称基本概念-本地向量、转换器、评估器、参数实验目的理解本地向量、转换器、评估器、参数实验原理(1)本地向量:Mllib支持两种类型的本地向量:密集向量(dense)和稀疏向量(sparse)。密集向量只有一个浮点数组组成,而一个稀疏向量必须有索引和一个浮点向量组成。例如,(2.1,3.2,4.3)代表一个密集向量。(3,[1.1,2.3],[5.6,4.3,4.4])代表一个稀疏向量。(2)Transformer:翻译成转换器,是一种可以将一个DataFrame转换为另一个DataFr原创 2021-06-04 21:44:30 · 279 阅读 · 0 评论 -
2021-06-04
实验名称基于GraphFrames的网页排名实验目的掌握PageRank算法实验环境VMware WorkstationUbuntu 16.04PycharmPyspark实验步骤使用斯坦福大学复杂网络分析平台(SNAP,Stanford Network Analysis Project)提供的数据为基础,使用GraphFrames作为图计算库,对网页进行排名。数据以边的形式存储,边515039个。我们这里只用了1万条边的数据。1、导入包,并加载边的数据,获得边的DataFr原创 2021-06-04 21:42:07 · 424 阅读 · 0 评论 -
Spark Graph实现的算法
实验名称Spark GraphX实现的算法实验目的理解Spark GraphX实现的算法实验环境VMware WorkstationUbuntu 16.04PycharmPyspark实验步骤1、bfs广度优先搜索(返回所有匹配路径的最小路径,若起点满足终止条件则返回路径为空)该算法的API如下:bfs(fromExpr, toExpr, edgeFilter=None, maxPathLength=10)其中参数fromExpr表示Spark SQL表达式,指定搜索起点原创 2021-06-04 21:36:36 · 593 阅读 · 0 评论 -
Spark GraphX的基本操作
实验名称Spark GraphX的基本操作实验目的掌握Spark GraphX的基本操作实验环境VMware WorkstationUbuntu 16.04PycharmPyspark实验步骤1、启动pyspark交互命令行,同时需要指定graphframes图计算库出现以下界面,启动成功:2、创建图名为graph的图创建成功。3、视图查看GraphFrame提供四种视图:顶点表视图、边表视图、三元组(Triplet)视图以及模式(Pattern)视图,四个视图返原创 2021-06-04 21:15:00 · 633 阅读 · 0 评论 -
大数据应用技术(Spark)中级
大数据应用技术(Spark)中级考前辅导一、Spark MLib1、常见的机器学习流程2、机器学习的分类[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2tNxeVy7-1622809455073)(pic\1597204435670.png)]sklearn是机器学习中最常见的一个第三方模块,里边封装了大量特征处理的方法。3、监督学习的分类[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fz原创 2021-06-04 20:57:32 · 773 阅读 · 0 评论