实战案例
文章平均质量分 96
TUJC
这个作者很懒,什么都没留下…
展开
-
2021-07-20-flink
基础篇https://kaiwu.lagou.com/course/courseInfo.htm?courseId=81#/detail/pc?id=20741:请介绍一下 Flink。Flink 是大数据领域的分布式实时和离线计算引擎,其程序的基础构建模块是流(Streams)和转换(Transformations),每一个数据流起始于一个或多个 Source,并终止于一个或多个 Sink。数据流类似于有向无环图(DAG)。Flink 提供了诸多高抽象层的 API 以便用户编写分布式任务:转载 2021-07-20 17:03:03 · 639 阅读 · 0 评论 -
推荐系统
1 项目系统架构项目以推荐系统建设领域知名的经过修改过的 MovieLens 数据集作为依托,以 某科技公司电影网站真实业务数据架构为基础,构建了符合教学体系的一体化的电 影推荐系统,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于 内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现等多方面实现2 项目数据流图2.1 系统初始化部分通...原创 2020-03-14 21:44:23 · 1338 阅读 · 4 评论 -
Hbase 倒序分页查询(java)
hbase 根据设备ID等,倒序分页查询(java)import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.client.coprocessor.AggregationClient;import org.apache.hadoop.hbase.client.co原创 2020-11-09 18:09:22 · 915 阅读 · 2 评论 -
出行大数据项目二
9、业务库数据分析前面我们已经通过sparkStreaming的程序,解析kafka当中业务库的数据,将数据全部都落地到了Hbase当中的四张表(order_info",“renter_info”,“driver_info”,"opt_alliance_business)里面去了。针对以上订单表,司机表,用户表,司管方表等,我们可以针对以上存储在Hbase当中的数据进行统计分析。通过sparkSQL读取Hbase当中的数据,实现数据的统计分析,然后将统计分析的结果,通过sparkSQL自定义输出源,保原创 2020-10-10 17:11:26 · 1053 阅读 · 0 评论 -
出行大数据项目一
某司出行大数据1、项目概述随着人们对出行的需求日益增加,出行的安全问题,出行的便捷问题等问题日益突出,特别是安全出行是我们每个人都迫切需要的,为了增加出行的编辑,提高出行的安全,对我们乘车的细节以及发生点我们迫切的需要及时知道,为此特地通过大数据的手段来处理我们海量的出行数据。做到:订单的实时监控,乘车轨迹的的细节回放,虚拟车站的科学制定,出行迁途的细节过程,订单报表的大屏展示,用户乘车行为统计用户画像等功能,实现用户的出行统计,制定用户的的“杀熟”策略等。2、技术架原创 2020-09-18 15:48:17 · 2224 阅读 · 4 评论 -
HBase微博实战案例
HBase微博实战案例1 需求分析微博内容的浏览,数据库表设计用户社交体现:关注用户,取关用户拉取关注的人的微博内容2 代码实现2.1 准备工作第一步:创建maven工程并导入jar包直接使用在版本确界当中创建的工程以及导入的jar包即可第二步:拷贝三个配置文件到maven工程的下将node01服务器的三个配置文件,分别是core-site.xml、hdfs-site.xml、hbase-site.xml三个配置文件,拷贝到maven工程的resource原创 2020-08-10 16:54:47 · 2155 阅读 · 1 评论 -
SparkStreaming实战案例
1、单词计数pom.xml配置:<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <scala.version>2.11.8</scala.version> <spark.v原创 2020-07-11 23:44:35 · 726 阅读 · 0 评论 -
Spark sql 实战案例
1、sparksql 操作hivesql添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.3.3</version> </dependency>原创 2020-07-11 23:11:47 · 1012 阅读 · 0 评论 -
Spark core实战案例
1. 通过spark实现点击流日志分析案例1.1 统计PV代码开发import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//TODO:利用spark实现点击流日志分析---------> PVobject PV { def main(args: Array[String]): Unit = { //1、构建SparkConf val sparkConf: Sp原创 2020-07-11 22:51:54 · 949 阅读 · 0 评论 -
Hive用户行为数仓(二)
Hive电商数仓(二)业务术语1.用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。2.新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。3.活跃用户打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。4.原创 2020-07-11 17:18:04 · 1333 阅读 · 1 评论 -
Hive用户行为数仓(一)
埋点数据基本格式公共字段:基本所有安卓手机都包含的字段业务字段:埋点上报的字段,有具体的业务类型下面就是一个示例,表示业务字段的上传。示例日志(服务器时间戳 | 日志):1540934156385|{ "ap": "gmall", "cm": { "uid": "1234", "vc": "2", "vn": "1.0", "la": "EN", "sr": "", "o原创 2020-07-11 10:48:44 · 951 阅读 · 0 评论 -
hive综合案例
hive的综合案例实战1、需求描述统计youtube影音视频网站的常规指标,各种TopN指标:–统计视频观看数Top10–统计视频类别热度Top10–统计视频观看数Top20所属类别–统计视频观看数Top50所关联视频的所属类别Rank–统计每个类别中的视频热度Top10–统计每个类别中视频流量Top10–统计上传视频最多的用户Top10以及他们上传的视频–统计每个类别视频观看数Top102、项目表字段1、数据结构1.视频表字段备注详细描述video id原创 2020-07-10 08:35:31 · 1211 阅读 · 0 评论