企业级别数仓的搭建需要懂得技术和需要的服务器的配置
企业级别的数仓要的技术还是很多的,首先来说一下集群,目前对于中小公司很多都是采用CDH作为大数据的集群,并且用的都是开源的,CDH有几个好处就是自身自带报警和配置,通过web页面
来搭建服务和启停集群,非常方便,还有就是有很多安全服务,比如各大组件的安全认证,数据库查询时授权等等,下面来说大数据需要能操作的组件
hdfs,hive,zookeeper,yarn,spark,kafka,flink,hue,impala,sentry,hbase,flume,azkaban,datax,sqoop,nifi等等技术
对于集群来说首先就是要启用hdfs,yarn的高可用,对于这2个服务大家肯定不陌生,都是存储和资源调度框架,绝对是不能停服务的,一个节点挂了其它节点要立马能来接替服务
其次就是启用CDH的kerberous安全认证,这个是确保各大组件启用前的检查工作确保集群操作的安全
下面来说一下数仓的分层吧,目前采用的阿里的建模方案,采用stg,ods,dwd,dim,dws,ads,bi等等关系实行建模策略,对于bi和数据展示采用click house来做服务和展示,对于数据分析
目前可以采用impala来实现数据的查询和跑历史,对于日常调度采用hive的mr来跑,spark一般都是来跑离线SQL任务,flink一般是用来做风控项目的对接的是我们主流的Kafka数据源
对于etl工具可以采用sqoop,datax,nifi等等都可以,实时和jdbc都可以接,对于去重工作采用窗口函数row_number(),每日采用azkaban进行调度跑脚本,对于写进click house数据方式很多,目前可以采用impala来实现数据的查询和跑历史,对于日常调度采用hive的mr来跑,spark一般都是来跑离线SQL任务,flink一般是用来做风控项目的对接的是我们主流的Kafka数据源
采用spark连hive,然后采用jdbc的方式写进clcikhouse,ck可以设置生命周期来实现数据的范围
下面来说一下服务器的配置
目前很多企业都采用阿里云作为生产服务器,阿里云的服务器比较可靠很少出现故障吧
CDH目前可以这样配置,server服务器采用一台配置很高的服务器,一般内存要128G起步,另外要8台worker服务器,来承载CDH的各大组件的服务,这里就是9台服务器,内存建议另外8台至少要64G起步
别的服务比如azkaban,click house,superset,以及跑python和jar包的服务器建议就是要6台,并且内存要64g起步,这样算起来大数据的所有服务要承接起来的服务器至少要15台左右,如果服务器
有多建议将服务器加进CDH的worker里面,里面的服务非常耗资源,所有的服务要起来并且支持全公司的用,至少要15台服务器,1.5t的内存,10T的硬盘,尤其是埋点数据特别大的情况下建议合理设置
hive的分区以及hdfs的数据生命周期,将数据做好归档操作
以上就是我认为搭建一个企业级别的数仓必须要的技术和服务器的配置
企业级数仓的搭建和服务器配置
最新推荐文章于 2024-09-24 21:03:46 发布