大数据项目
文章平均质量分 79
未来影子
曾先后在百度、理想、快手参与研发工作
后端、大数据、NLP学习者
展开
-
Flink实时数仓完结
默认情况下,在Flink的MapFunction中,单个并行只能用同步方式去交互将请求发送到外部存储,IO阻塞,等待请求返回,然后继续发送下一个请求。为了提高处理效率,可以增加MapFunction的并行度,但增加并行度就意味着更多的资源,并不是一种非常好的解决方式。异步查询实际上是把维表的查询操作托管给单独的线程池完成,这样不会因为某一个查询造成阻塞,单个并行可以连续发送多个请求,提高并发效率,这种方式特别针对涉及网络IO的操作,减少因为请求等待带来的消耗。...原创 2022-07-28 22:12:56 · 715 阅读 · 0 评论 -
大数据项目实战数仓4——总纲
文章目录一、数据仓库的概述二、项目需求及架构设计1.项目需求分析2.项目框架2.1技术选型2.2系统数据流程设计2.3框架发行版本选型2.4服务器选型2.5集群资源规划设计三、相关命令可视化报表Superset即席查询Kylin集群监控Zabbix全流程调度Azkaban权限管理Ranger元数据管理Atlas四、全流程调度+数据质量可视化一、数据仓库的概述数据仓库(Data Warehouse),是为企业制度决策,提供数据支持的。二、项目需求及架构设计1.项目需求分析1.用户行为数据采集平台搭原创 2022-02-22 15:05:21 · 994 阅读 · 0 评论 -
元数据管理Atlas
1.Atlas概述 Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,服务于数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。 Atlas的具体功能如下:元数据分类支持对元数据进行分类管理,例如个人信息,敏感信息等元数据检索可按照元数据类型、元数据分类进行检索,支持全文检索血缘依赖支持表到表和字段之间的血缘依赖,便于进行问题回溯和影响分析等1)表与表之间的血缘依赖2)字段与字段之间的血原创 2022-02-22 15:03:28 · 870 阅读 · 0 评论 -
权限管理Ranger
文章目录第1章Ranger概述1.1 什么是Ranger1.2Ranger的目标1.3Ranger支持的框架1.4Ranger的架构1.5Ranger的工作原理第1章Ranger概述1.1 什么是Ranger Apache Ranger是一个Hadoop平台上的全方位数据安全管理框架,它可以为整个Hadoop生态系统提供全面的安全管理 随着企业业务的扩展,企业可能在多用户环境中运行多个工作任务,这就需要一个可以对安全策略进行集中管理,配置和监控用户访问的框架,Ranger由此产生! R原创 2022-02-22 15:02:20 · 1109 阅读 · 0 评论 -
安全认证Kerberos
文章目录一、Kerberos概述1.kerberos简介2.Kerberos术语3.Kerberos认证原理二、Kerberos安装1.安装Kerberos相关服务2.修改配置文件3.初始化KDC数据库4.修改管理权限配置文件5.启动Kerberos相关服务6.创建Kerberos管理员用户三、Kerberos数据库操作1.登录数据库2.创建Kerberos主体3.修改主体密码4.删除Kerberos主体5.查看所有主体四、Kerberos认证操作1.密码认证2.密钥文件认证3.销毁凭证一、Kerbero原创 2022-02-22 14:59:38 · 1022 阅读 · 0 评论 -
可视化报表Superser
文章目录第1章:Superset入门1.1概述1.2Superset应用场景第2章:Superset安装及使用1.安装Python环境1.1安装Miniconda1.2创建Python3.7环境1.3常用命令2.Superset部署2.1安装依赖2.2安装Superset2.3启动Supterset2.4Superset.sh:启停脚本第3章:Superset使用1.安装依赖2.重启Superset第1章:Superset入门1.1概述 Apache Superset是一个开源的、现代的、轻量级B原创 2022-02-22 14:57:51 · 1120 阅读 · 0 评论 -
即席查询Kylin
文章目录1.Kylin简介1.1Kylin定义1.2Kylin架构1.3Kylin特点2.维度和度量2.1维度和度量2.2Cube和Cuboid2.3Cube构建算法1)逐层构建算法(layer)2)快速构建算法(inmem)2.4.4Cube存储原理3.Kylin Cube构建优化3.1使用衍生维度(derived dimension)3.2使用聚合组(Aggregation group)3.3Row Key优化1.Kylin简介1.1Kylin定义 Apache Kylin是一个开源的分布式分原创 2022-02-22 14:53:46 · 1086 阅读 · 0 评论 -
即席查询Presto
文章目录1.Presto简介1.1Presto概念1.2Presto架构1.3Presto优缺点2.Presto安装2.1Presto Server安装2.2Presto命令行Client安装2.3Presto可视化Client安装3.Presto优化之数据存储3.1合理设置分区3.2使用列式存数3.3使用压缩4.Persto优化之查询SQL4.1只选择使用的字段4.2过滤条件必须加上分区字段4.3Group By语句优化4.4Order by使用Limit4.5使用Join语句时将大表放在左边5.注意事项原创 2022-02-22 14:49:55 · 1622 阅读 · 0 评论 -
大数据项目实战数仓4——常用脚本
文章目录0、xsync:分发脚本1、xcall.sh:查看相关进程2、hdp.sh:hadoop集群群起3、zk.sh:zookeeper集群群起4、kf.sh:kafka集群群起5、file-flume-kafka.conf:文件通过flume输送到kafka配置6、f1.sh:日志采集Flume启动7、kafka-flume-hdfs.conf:消费者Fllume配置8、f2.sh:消费者Flumecluster.sh:采集通道0、xsync:分发脚本#!/bin/bash#1. 判断参数个数i原创 2022-02-22 14:46:31 · 465 阅读 · 1 评论