![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
GraphX
MG羽白
这个作者很懒,什么都没留下…
展开
-
Spark GraphX 学习笔记——预测社交圈
数据来源:Kaggle数据网址:https://www.kaggle.com/c/learning-social-circles/data实验目的:读取每个egonet文件内容,根据这些朋友及朋友间的连接创建一个图,找出图中的连通组件,输出社交圈结果参考书籍:spark GraphX实战编程语言:Scala// 1. 读取数据,生成pairRDDval egonets = ...原创 2019-04-17 10:41:44 · 2714 阅读 · 2 评论 -
Spark GraphX 学习笔记——Dijstra最短路径算法
1. Scala中的Dijstra最短路径算法import org.apache.spark.graphx._def dijkstra[VD](g:Graph[VD,Double], origin:VertexId): Graph[(VD,Double), Double] = { /** * 1. 初始化 * 遍历图的所有节点 * 变为(false, Double.Max...原创 2019-04-22 14:54:14 · 2463 阅读 · 0 评论 -
Spark GraphX 学习笔记——旅行推销员问题:贪心算法
旅行推销员问题: 在一个无向图中找到一个经过每一个顶点的最短路径1. 贪心算法 对于旅行推销员问题而言,贪心算法是最简单的,即在每次迭代时选择最接近的最短边,但不做进一步搜索2. 贪心算法优化 贪心算法可在不用增加太多代码的情况下,用不同的起始顶点重新运行整个算法,不断迭代,挑选出一个到达所有顶点并且最短的解决方案,用这种方法可以改善贪心算法。3. 贪心算法scala代码实现:...原创 2019-04-22 15:32:03 · 2113 阅读 · 1 评论 -
Spark GraphX 学习笔记——影片推荐:SVDPlusPlus (监督学习)
影片推荐: SVDPlusPlus (监督学习) 推荐系统就是监督学习的一个例子,因为它提供了 一些影片评分的数据,并要求预测未知的用户对影片的评分。一般有两种主流的方法来解决这个问题。 1)第一种主流方法比较直接和简单 : 对于需要处理的用户 , Pat, 找到和他有相同爱好的其他用户,然后给 Pat 推荐这些用户喜欢的影片。这就是 Netflix 公司早期的推荐策略,有时被称为邻居...原创 2019-04-23 19:18:47 · 2664 阅读 · 0 评论 -
Spark GraphX 学习笔记——LDA实战:路透社电报新闻分类
1. 隐含狄利克雷分布(Latent Dirichlet allocation,LDA) 1)LDA 属于无监督学习,所有的主题并不需要事先指定,是在聚类过程中逐渐形成的 。 2)MLlib 的 LDA 使用了 GraphX 来提高计算效率,尽管它的输入和输出都不是图。 3)LDA 是基于隐含变量的,在这里隐含变量指的是算法自动推断出来的“主题”。这些主题由一些与之关联的单词描述,但并...原创 2019-04-23 19:20:40 · 1608 阅读 · 0 评论 -
Spark GraphX 学习笔记——垃圾信息检测:LogisticRegressionWithSGD
垃圾信息检测:LogisticRegressionWithSGD (Stochastic Gradient Descent) 1)构建训练集的图import org.apache.spark.graphx._import org.apache.spark.mllib.classification.LogisticRegressionWithSGDval trainV = sc.ma...原创 2019-04-23 19:22:30 · 1772 阅读 · 0 评论