项目
文章平均质量分 74
菜鸟周星星
大数据开发攻城狮。更多学习和面试资料尽在微信公众号:Hadoop大数据开发
展开
-
重新安装kafka集群
首先很感谢大家的垂爱,从当初收回学校运营的这个公众号到后面自己专注于大数据技术公众号,也快一年了,不知不觉粉丝的个数已经从当初的两三百到千级别了,其实一直没怎么精心去运营,只想着权当把微信公众号这个平台当做树洞,当做日记,来分享自己的一次次学习,一次次跳坑,一次次成长。一路走来,有人离开,有人陪伴,虽然我身体上是孤独的,但是精神上却一直是充实的,没有大号主的扶持、没有精心的运营、没有软文式的广告,只想默默跟大家一起学习,目前只有大成子也就是号主本人一直在运营,如果有志同道合的同鞋想一起学习,平常也愿意分享.原创 2021-07-04 18:03:22 · 669 阅读 · 3 评论 -
大数据实战之数仓项目(二)后续架构构想及近期安排
大家好,今天手画了一幅后续架构构想【如下图】现在行业内数仓架构比较流行的即是kimball模型从第一步数据抽取(业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】)抽取采集到介质hdfs/hive中存储起来到第二步ETL层(Extract抽取、Transform转换、Load装载),在这一层会进行数据汇聚、集成、清洗、转换、过滤,最终落入到数仓的ods(数据贴源层)【operator data store】..原创 2021-06-25 23:51:28 · 215 阅读 · 0 评论 -
埋点/行为日志数据模拟生成
本篇目录:目的技术选构日志生成目的:模拟真实业务数据,贴近实战项目技术选构:flume+hive日志生成:数据库数据准备 准备一个mysql服务器(注意,是在你的虚拟机的机器上,不是本地mysql),并创建一个库:realtimedw 2. 将realtimedw.sql这个脚本,导入到你的realtimedw库...原创 2021-05-22 11:33:23 · 769 阅读 · 1 评论 -
大数据实战之离线数仓整体规划
前言大家好,从今天开始,我们将进入到离线数仓项目搭建系列,一来是想对自己所学和实践做一个系统性归纳和结合,二来也是为了给大家多分享一些心得。【在此过程中,有任何疑问或想法,均可在QQ群139809179中提出交流】背景2014年,马云爸爸提出,“人类正从 IT 时代走向 DT (Data Technology)时代“。JDC的报告显示:预计到 2020 年,全球数据总量将超过 40ZB(相当于 40万亿 GB )。“十三五”规划纲要也明确提...原创 2021-05-13 23:40:17 · 813 阅读 · 1 评论 -
数仓项目之数据采集实战及ODS层数据初步导入和flume日志采集过程中问题监控及解决方案
在实际生产开发当中,适当的设计agent的数量和模式,并很好的将数据采集过来,是我们分析数据的第一步,即先要有数据业务系统那边进行埋点,记录日志,到服务器本地磁盘当中考虑使用高可用模式,并使用级联模式,上游一个agent,下游两个agent,因为要对数据进行简单的清洗 、处理,所以需要一个自定义拦截器上游agent高可用模式1个source taildir类型1个channel file类型高可用:2个sink 获得的数据一样 但同时只有一个sink在运转 当主sin...原创 2021-01-13 18:05:22 · 865 阅读 · 1 评论