大数据项目实战
文章平均质量分 92
四月天03
能用钱解决的问题,千万别花时间
展开
-
基于 FlinkSQL 构建流批一体准实时数仓
一、背景 基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大。在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时数仓,将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗,甚至导致重复开发。想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是,借助 Flink 可以实现已有的 Hive 离线数仓准实时化。 离线数仓...原创 2021-12-08 14:00:34 · 3642 阅读 · 0 评论 -
从MongoDB迁移到ES后、MySQL数据同步到ES中
序言图示:MongoDB与Elasticsearch热度排名本文内容涉及到MongoDB与Elasticsearch两大阵营,可能会引起口水之争,仅代表个人经验之谈,非阵营之说,围绕两个话题展开: 为什么要从MongoDB迁移到Elasticsearch? 如何从MongoDB迁移到Elasticsearch? 现状背景MongoDB本身定位与关系型数据库竞争,...原创 2020-04-26 17:23:54 · 874 阅读 · 0 评论 -
大数据时代--风控系统
https://www.docin.com/p-2216156529.html实时业务风控系统https://www.jianshu.com/p/efcf3ce832c4电商实时交易风控系统http://www.mamicode.com/info-detail-2181964.html在线支付之风控系统架构选型https://cloud.tencent.com/developer...原创 2019-12-04 18:02:11 · 5252 阅读 · 0 评论 -
Redis实现购物车设计思路
1.3. 业务分析以京东的购物车为例,按业务分析,需要完成如下功能:1.全选功能-获取所有该用户的所有购物车商品2.商品数量-购物车图标上要显示购物车里商品的总数3.删除-要能移除购物车里某个商品4.增加或减少某个商品的数量1.4. 数据结构选择Redis常用有5种数据类型分别为string,hash,list,set,zset,在这个案例里面我们选择使用has...原创 2019-11-05 11:16:40 · 4907 阅读 · 2 评论 -
MySQL数据 实时同步到Kafka --Binlog canal、Maxwell、Kafka Connect 实现MySQL增量同步
一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析,使用过程中也带来了一些问题:虽然Sqoop支持增量同步但还属于粗粒度的离线同步,无法满足下游数仓实时性的需求(可能一个小时,或者一天) 每次同步Sqoop以sql的方式向Mysql发出数据请求也在一定程度上对Mysql带来一定的压力 同时Hive对数据更新的支持也相对较弱,由于Hive本身的...原创 2019-08-30 16:09:48 · 11634 阅读 · 1 评论 -
使用redis/HBase构建简易云笔记系统
https://www.cnblogs.com/jiangbei/p/8496153.htmlhttps://blog.csdn.net/livan1234/article/details/812935821.设计理念 将云笔记信息分别存储在redis和hbase中。 redis(缓存):存储每个用户的笔记本信息 hbase(持久层):存储用户的笔记本...原创 2019-03-06 10:18:46 · 557 阅读 · 0 评论 -
用户行为分析大数据系统(实时统计每个分类被点击的次数,实时计算商品销售额,统计网站PV、UV )
https://blog.csdn.net/m0_37739193/article/details/74559826实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示https://blog.csdn.net/ddxygq/article/details/81258643Flume+Kafka+Storm+Redis构建大数据实时处理系统:实...原创 2019-03-03 10:07:41 · 9417 阅读 · 0 评论 -
新闻大数据实时分析可视化系统,Flume+HBase+Kafka
原文:https://blog.csdn.net/u011254180/article/details/80172452https://blog.csdn.net/xw15061126063/article/details/86760299本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开...原创 2019-03-01 13:43:01 · 2494 阅读 · 0 评论 -
Spark Streaming 实时计算在甜橙金融监控系统中的应用、性能优化、任务监控
1 写在前面目前公司对实时性计算的需要及应用越来越多,本文选取了其中之一的 Spark Streaming 来介绍如何实现高吞吐量并具备容错机制的实时流应用。在甜橙金融监控系统项目中,需要对每天亿万级(10T)的日志记录进行实时的指标统计,在生产者一端,我们通过 Flume 将数据存入 Kafka 当中, 而在消费者一端,我们利用 Spark Streaming 从 Kafka 中不断的拉取数...原创 2019-03-01 13:42:43 · 607 阅读 · 0 评论 -
Spark Streaming 运行日志 、 任务监控 Web UI 、Kafka 、Listener 邮件短信通知
任务监控一、 Spark Web UI对于 Spark Streaming 任务的监控可以直观的通过 Spark Web UI ,该页面包括 Input Rate, Scheduling Delay、Processing Time 等,但是这种方法运维成本较高,需要人工不间断的巡视。这其中包括接受的记录数量,每一个batch内处理的记录数,处理时间,以及总共消耗的时间。在上...原创 2019-02-27 15:27:43 · 6527 阅读 · 1 评论