大数据项目实战
Knight_AL
这个作者很懒,什么都没留下…
展开
-
大数据项目实战(8) | 从 Kafka读取数据并写入到 Phoenix
建议先看这一篇,再做这一篇 目录从 Kafka 读取数据写入数据到 Phoenix 从 Kafka 读取数据 1.添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> </dependency> <原创 2020-09-25 21:31:47 · 414 阅读 · 0 评论 -
大数据项目实战(7) | 从Canal读取数据到Kafka
目录从Canal读取数据准备数据库数据代码实现读取数据发送到Kafka 从Canal读取数据 添加依赖 <!-- https://mvnrepository.com/artifact/com.alibaba.otter/canal.client --> <!--canal 客户端, 从 canal 服务器读取数据--> <dependency> <groupId>com.alibaba.otter&原创 2020-09-24 17:21:29 · 617 阅读 · 0 评论 -
大数据项目实战(6) | 使用 Canal
目录为什么需要 CanalCanal 工作原理Mysql 的主从复制Canal 的工作原理Mysql 的 Binary logbinlog 格式配置Mysql安装 canal 和启动 业务数据, 比如用户的订单,支付等操作会存储在 Mysql 中. 为便于 SparkStreaming 对这些业务数据实时分析处理, 这些数据一般也会再存储到 Kafka 中. 为什么需要 Canal 从 Mysql 到 Kafka 的过程中, 如果每次都是全表扫描进行数据的转移, 则非常耗时, - - [ ] 并且也会原创 2020-09-23 11:09:36 · 260 阅读 · 0 评论 -
大数据项目实战(5) | 使用 Spark Streaming搭建实时处理模块
什么叫日活: 通常: 打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。 也就是只需要统计第一次打开即可 游戏用户: 每天打开/登录游戏的用户数(针对游戏DAU的定义) 我们采用第一种日活的定义, 日活(DAU)统计思路: 从 kafka 读取用户启动日志 当天只保留用户的第一次启动记录, 过滤掉其他启动记录: 借助于 Redis 然后把第一次启动记录保存在 hbase 以供其他应用查询 创建实现处理模块 模块命名: gmall-realtime 加入依赖 &.原创 2020-09-22 18:05:42 · 322 阅读 · 0 评论 -
大数据项目实战(4) | 使用 Nginx 负载均衡
目录一.Nginx 简介介绍Nginx 和 Tomcat 的关系Nginx 三大功能二.Nginx 安装配置负载均衡 一.Nginx 简介 维基百科:https://zh.wikipedia.org/wiki/Nginx 介绍 Nginx (读作“engine x”), 是一个高性能的 HTTP 和反向代理服务器 , 特点是占有内存少,并发能力强,事实上 nginx 的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用 nginx 网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。 Nginx.原创 2020-09-21 19:40:21 · 247 阅读 · 0 评论 -
大数据项目实战(3) | 启动数据采集服务器
思考怎么解决 一个子类只能有一个父类 解决方案 方法步骤 将gmall-logger中pom.xml的parent复制到gmall1015中pom.xml原创 2020-09-21 14:54:53 · 437 阅读 · 0 评论 -
大数据项目实战(2) | 模拟数据
整个项目我们要做的事情: 创建父工程 父工程Module:gmall1015 给父工程添加依赖: <groupId>org.example</groupId> <artifactId>gmall1015</artifactId> <packaging>pom</packaging> <version>1.0-SNAPSHOT</version> <modules>原创 2020-09-20 15:16:13 · 833 阅读 · 0 评论 -
大数据项目实战(1) | 离线和实时处理架构
大数据处理分离线分析架构和实时处理架构. • 离线需求 一般是根据前一日的数据生成报表等数据,虽然统计指标、报表繁多,但是对时效性不敏感。 • 实时需求 主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性。 离线处理架构 离线分析架构(如Hive,Map/Reduce,Spark Sql等)可以满足数据后分析,数据挖掘的应用需求。 实时处理架构 对于实时性要求高的应用,如用户即时详单查询,业务量监控等,需要应用实时处理架构。 ..原创 2020-09-20 14:56:17 · 1801 阅读 · 0 评论