Spark案例剖析 - 谷歌网页排名引擎PageRank实战

最新推荐文章于 2024-06-09 19:51:04 发布

AtlantisChina

最新推荐文章于 2024-06-09 19:51:04 发布

阅读量2k

点赞数 4

分类专栏：大数据技术原理与应用文章标签： spark SparkSQL

本文链接：https://blog.csdn.net/q961250375/article/details/103568661

版权

本文通过三个关键步骤，详细介绍了如何使用SparkSQL进行海量数据导入处理，运用Spark进行大数据查询，以及在大数据场景下实现网页评分算法PageRank，揭示了Spark在处理大规模网页排名问题中的应用。

摘要由CSDN通过智能技术生成

文章目录

实训项目地址：https://www.educoder.net/shixuns/pbmkl5vt/challenges。

第1关：海量数据导入：SparkSQL大数据导入处理

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql._
object SparkSQLHive {
   
  def main(args: Array[String]) = {
   
    val sparkConf=new SparkConf().setAppName("PageRank")
    val sc=new SparkContext(sparkConf)
    val spark = SparkSession.builder.master("local").appName("tester").enableHiveSupport().getOrCreate()
    spark.sql("use default")
    import spark.implicits._
    //drop table if it exists
    spark.sql("DROP TABLE IF EXISTS vertices")
    spark.sql("DROP TABLE IF EXISTS edges")
    //create table here    
    spark.sql("CREATE TABLE IF NOT EXISTS vertices(ID BigInt,Title String)ROW FORMAT DELIMITED F