Spark编程实例

7 篇文章 0 订阅
6 篇文章 0 订阅

【实例一】
分布式估算pi
假设正方形边长为x,则正方形面积为:x*x,圆的面积为:pi*(x/2)*(x/2),两者之比为:4/pi
随机产生位于正方形内的点x个,假设位于园中的有y个,则:pi=4*y/x
当x->无群大时,pi逼近真实值
这里写图片描述

object SparkPi{ //不要用继承,会有各种麻烦
  def main(args:Array[String]){
    //常规spark程序写法
    val conf=new SparkConf().setAppName("Spark Pi")
    val sc=new SparkContext(conf)
    //args(0)表示启动几个task,默认是2,else 2
    val slices=if(args.length>0)args(0).tolnt else 2//并发度2
    val n=100000*slices  //n表示x,产生多少点

    //产生RDD元素1~n,RDD分成两个partition,每个partition执行下面逻辑
    val count=sc.parallelize(1 to n,slices).map{i=>
      val x=random*2-1  //random产生[0,1]之间的随机数。[-1,1]
      val y=random*2-1  //[-1,1]
      if(x*x+y*y<1) 1 else 0 //落到圆中记为1
      }.reduce(_+_)  //加起来,既得落到圆中点的数量
   println("Pi is roughly" + 4.0 * count/n) //count是落到圆中的点,n是产生点的总数量
   spark.stop()
  }
}

【实例二】
log query
这里写图片描述
任务:如何统计每个用户在每台机器(ip)上的查询(query)的次数和返回结果累积大小(byte)?
正则表达式提取出我们想要的字段:
这里写图片描述
辅助函数:
//给我一行日志,返回(三元组)ip,user, 用户查询语句
这里写图片描述
//Stats(1,bytes.tolnt),1设置为1一个整数,bytes.tolnt(用户查询之后返回的元素大小)
这里写图片描述

代码开发过程:

object LogQuery{
  def main(args:Array[String]){
    val conf=new SparkConf().setAppName("Log Query")
    val sc=new SparkContext(conf)

    val dataset=sc.textFile(args(0))//传入参数(文本文件,映射成RDD)一行一行的日志

    dataSet.map(line=>(extractKey(line),extractStats(line)))//对每一行日志执行一次这两个函数。extractKey(line)返回三元组,extractStats(line)返回一个对象。每一行日志映射为key/value对。
      .reduceByKey((a,b)=>a.merge(b))//做归约把key相同的放到一起。对value做一个merge。a->extractStats(line)。a,b是如下图片所示Stats对象。
      .collect().foreach{
        case(user,query)=>println("%s\t%s".format(user,query))}//返回并打印
  }
}

merge函数示例:
这里写图片描述

【实例三】
逻辑回归(可以看成一个分类算法)迭代算法
找出一条最优的线,将所有点分成两部分
——寻找危险因素
——预测
——判别
这里写图片描述
假设我们有很多点,就是数据样本,每个点就是一个数据样本,每个点有可能是多维的,通过训练找一条线(取决于是何种回归算法,线性回归可就是找一条线),这条线可以把这个文本集分成两类。有了这条线之后就可以把这条线拿来用在未知的样本上,对未知样本进行分类。
每一轮迭代都会求一个参数(权重的向量),之后可以根据向量求它离目标有多远。然后一直更新更新!直到我们求出的线是在可接受的误差范围内!

val D=10
val pointsRdd=sc.textFile(hdfs://...)//样本每次迭代都要读取所以使用cache
             .map(parsePoint)
             .cache()
var weight = Vector.random()//产生一个初始的权重列表

for(1 to ITERATIONS){
  val gradient=pointsRdd.map(p=>calcGradient(p,weight))
                        .reduce(_+_)
    weight-=gradient
}//进行迭代,更新权重
println("Result:" + weight)//最后把权重输出出来

代码展示:
这里写图片描述

这里写图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

马超的博客

谢谢大佬的赞赏 :)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值