离线数仓项目从零到一
完整离线数仓项目的总结
无意的根本
这个作者很懒,什么都没留下…
展开
-
三:虚拟机,jdk,hadoop配置
1.环境选定:centos7,三节点,内存8-3-3,硬盘主节点大于50G,其他的最好也是几十G,网络nat模式,固定ip,测试是否ping通互联网。2.组件版本,apache版本,虽然麻烦,但是cdh收费之后,有实力的地方绝对是自己搭建apache。3.hadoop搭建:...原创 2020-11-07 19:48:56 · 202 阅读 · 1 评论 -
二:假前端埋点数据生成的maven项目
一:项目结构二:pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.ap原创 2020-11-04 16:30:00 · 173 阅读 · 0 评论 -
一:技术选型
技术选型的主要考虑因素:数据量大小,业务需求,行业内经验,技术成熟度,开发维护成本,总成本预算。数据采集传输:flume,kafka,sqoop,logstash,dataX数据存储:mysql,hdfs,hbase,redis,mongoDB数据计算:hive,tez,spark,flink,storm数据查询:presto,druid,impala,kylin数据可视化:echarts,superset,quickBI,dataV任务调度:azkaban,oozie集群监控:zabbix原创 2020-11-02 12:08:41 · 512 阅读 · 0 评论