2019-12-25

概率论的基本概念

随机实验

1,统计规律:大量实验观察中的存在固有规律。
栗子:麦克斯韦速率分布律。
2,随机现象:在个别实验呈现不确定性,在大量实验存在统计规律性。
栗子:掷骰子。
3,随机实验性质
a、可以在相同条件下重复进行。
b、每次实验结果不确定的。但所有结果在事先应可以直接知道。

样本空间,随机事件

1 ,样本空间:一个随机实验发生所有结果的集合。
2,样本点:随机实验的每个结果看为一个样本点。
3,随机事件:定义在样本空间的子集上,样本空间的子集均可看为一个随机事件。由一个样本点构成的事件为基本事件。由所有样本点构成的事件称为必然事件,不由样本点构成的事件称为不可能事件。
4,事件的关系与时事件间的运算。(集合表示方法的概率论方式解读)
a、若A事件属于B事件则表示若A发生则B发生。B发生是A发生的必要条件。
b、若对A,B事件取和事件,则表示A,B中至少有一个发生。
d、若A,B事件取交事件,则表示A,B事件同时发生。
e、若A,B事件相交为空,则表明两事件互斥,空事件交空事件也为空。
f、若A,B事件的并为全集,而且互斥,则称其为对立事件。
g、若事件A,B为A-B的差事件则表明A发生,B不发生。
h、交换律,结合律,分配率,德摩根率。

频率与概率

1,频率:为一次随机实验的的总数做被

06-08
代码如下: ```scala import org.apache.spark.{SparkConf, SparkContext} object ECommerceAnalysis { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("ECommerceAnalysis").setMaster("local[*]") val sc = new SparkContext(conf) // 读取数据 val cityInfo = sc.textFile("city_info.txt") val productInfo = sc.textFile("product_info.txt") val userVisitAction = sc.textFile("user_visit_action.txt") // 1. 统计最受欢迎的品类,先排序点击-再是订单-最后是支付 val categoryCount = userVisitAction.flatMap(line => { val fields = line.split("\t") if (fields(6) != "-1") { // 点击 List((fields(6), (1, 0, 0))) } else if (fields(8) != "null") { // 订单 val orderIds = fields(8).split(",") orderIds.map(orderId => (orderId, (0, 1, 0))) } else if (fields(10) != "null") { // 支付 val paymentIds = fields(10).split(",") paymentIds.map(paymentId => (paymentId, (0, 0, 1))) } else { Nil } }).reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2, x._3 + y._3)) .map{case (categoryId, (clickCount, orderCount, paymentCount)) => (clickCount, orderCount, paymentCount, categoryId) }.sortBy(x => (x._1, x._2, x._3), false) .take(10) categoryCount.foreach{case (clickCount, orderCount, paymentCount, categoryId) => println(s"Category $categoryId: ClickCount: $clickCount, OrderCount: $orderCount, PaymentCount: $paymentCount") } // 2. 统计页面跳转率 val pageJumpCount = userVisitAction.map(line => { val fields = line.split("\t") val pageId = fields(5).toInt val sessionId = fields(2) val actionTime = fields(4) val actionType = fields(6).toInt (sessionId, (pageId, actionTime, actionType)) }).groupByKey().flatMap{case (sessionId, iter) => val actions = iter.toList.sortBy(_._2) val pageJumpActions = actions.zip(actions.tail) .filter{case (action1, action2) => action1._3 == 0 && action2._3 == 1} pageJumpActions.map{case ((pageId1, time1, _), (pageId2, time2, _)) => ((pageId1, pageId2), 1) } }.reduceByKey(_ + _) val pageVisitCount = userVisitAction.map(line => { val fields = line.split("\t") val pageId = fields(5).toInt val sessionId = fields(2) (sessionId, pageId) }).distinct().groupByKey().map{case (sessionId, iter) => val pageIds = iter.toList.sortBy(x => x) val pageVisitPairs = pageIds.zip(pageIds.tail) pageVisitPairs.map(pair => (pair, 1)) }.flatMap(x => x).reduceByKey(_ + _) val pageJumpRate = pageJumpCount.join(pageVisitCount).map{case ((pageId1, pageId2), (jumpCount, visitCount)) => (pageId1, (pageId2, jumpCount.toDouble / visitCount)) }.groupByKey().map{case (pageId, iter) => val pageJumpInfo = iter.toList.sortBy(-_._2).take(10) (pageId, pageJumpInfo) } pageJumpRate.foreach{case (pageId, pageJumpInfo) => println(s"Page $pageId: ${pageJumpInfo.mkString(", ")}") } // 3. 不同区域内的热门商品Top3 val cityProductCount = userVisitAction.flatMap(line => { val fields = line.split("\t") val cityId = fields(3) val productId = fields(6) if (productId != "-1") { List(((cityId, productId), 1)) } else { Nil } }).reduceByKey(_ + _) val cityTop3Product = cityProductCount.map{case ((cityId, productId), count) => (cityId, (productId, count)) }.groupByKey().map{case (cityId, iter) => val top3Product = iter.toList.sortBy(-_._2).take(3) (cityId, top3Product) } val cityMap = cityInfo.map(line => { val fields = line.split(" ") (fields(0), fields(1)) }).collectAsMap() cityTop3Product.map{case (cityId, top3Product) => val cityName = cityMap.getOrElse(cityId, "Unknown") val top3ProductStr = top3Product.map{case (productId, count) => s"$productId:${count}" }.mkString(", ") (cityName, top3ProductStr) }.foreach{case (cityName, top3ProductStr) => println(s"$cityName: $top3ProductStr") } // 4. 自定义需求 // 按小时统计访问人数 val hourVisitCount = userVisitAction.map(line => { val fields = line.split("\t") val timestamp = fields(4) val hour = timestamp.substring(11, 13) (hour, 1) }).reduceByKey(_ + _) hourVisitCount.sortByKey().foreach{case (hour, count) => println(s"Hour $hour: $count") } sc.stop() } } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值