大数据运算
九八年的尾巴
一个愿意分享和倾听的年轻人
展开
-
大数据分析平台-项目5转化率
转化率首页–搜索–商品详情–订单–支付–支付完成比如有100个人点击了首页 80个人去搜索了 20个人退出了搜完之后发现没什么喜欢的 50个人点详情了 30个人退出了之后又10人下单 10个人加入购物车 30个人退出了例如:酬宾活动—商品—支付100 3人支付object PageCount { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master(原创 2020-09-25 16:13:31 · 402 阅读 · 0 评论 -
大数据分析平台-项目4
前10热门商品统计,用户针对种类的点击,购买,支付创建CategorySortKey排序工具类/* * Copyright (c) 2018. Atguigu Inc. All Rights Reserved. */package com.obj.sessioncase class CategorySortKey(val clickCount: Long, val orderCount: Long, val payCount: Long) extends Ordered[CategorySo原创 2020-09-03 22:34:39 · 184 阅读 · 0 评论 -
大数据分析平台-项目3
项目功能流程 需求:获得用户访问初始时间和结束时间 通多计算步长来计算用户所占时间比 加入条件性别 年龄时长进行筛选 当用户访问后会有session存在数据库或者存在日志中 转化所有数据>计算>保存用户操作,放在一起 转化格式 session对应所有数据 value(Array)统计每一个用户的Array 再遍历处理计算 步长 时长 转换为范围 便于统计 >计算百分比 >永久性存储数据库(存储多种格式 比如数据库 redis Hive hBase) >Ec原创 2020-09-03 22:34:13 · 108 阅读 · 0 评论 -
大数据分析平台-项目2
注意的点:为什么这么写?能不能加些其它的列操作?数据!什么样的数据!!object模块下创建object-main模块创建UserSession Object类思路: session的步长和时间 我从首页进入到商品详情到购物车 用户到底跳转了多少页面就是步长 当这个数据统计之后 这个用户在网页中时间段内浏览的次数 通过这种方式找出优质客户和访问时间 比如9点开始访问到10点 之间耗费多长时间package com.obj.sessionimport com.dou.原创 2020-09-03 22:33:33 · 85 阅读 · 0 评论 -
大数据分析平台-项目1
日志数据随机生成项目结构依赖 <properties> <scala.version>2.12.8</scala.version> </properties> <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifa原创 2020-09-03 22:31:23 · 401 阅读 · 0 评论 -
大数据实时运算
离线运算:都是把日志文件存储好后处理日志文件实时运算:StormSparkcore:处理离线运算 SQL:也是处理离线运算 Grable:图运算ml/Mlib:基于机器学习 streaming:实时运算streaming:实时推荐系统、实时更新相关功能(但前某一个广告的点击率)Streaming => DStreamRDD集合创建发送者object CreateData { def main(args: Array[String]): Unit = { // 通过套接字发原创 2020-09-30 12:21:27 · 395 阅读 · 0 评论