实验名称
基于GraphFrames的网页排名
实验目的
- 掌握PageRank算法
实验环境
- VMware Workstation
- Ubuntu 16.04
- Pycharm
- Pyspark
实验步骤
使用斯坦福大学复杂网络分析平台(SNAP,Stanford Network Analysis Project)提供的数据为基础,使用GraphFrames作为图计算库,对网页进行排名。
数据以边的形式存储,边515039个。我们这里只用了1万条边的数据。
1、导入包,并加载边的数据,获得边的DataFrame类型数据
2、缓存边数据
3、从边数据中提取起点和重点,并去重,得到所有的起点终点
4、数据的顶点就是,起点终点求并之后去重,这里进行重命名src为id,获得顶点DataFrame
5、缓存顶点DataFrame
6、到此,有了顶点DataFrame和边DataFame,就可以构建图了
7、对图执行网页排名算法,得到每个节点的重要性的粗略估计。