数仓项目
文章平均质量分 68
DSJ_ kohler
逻辑严谨
展开
-
Springboot整合Mybatis
<hr/> <a href="/springboot1026/selectall">click me,select all employee</a> <form action="/springboot1026/opemp">operation employee<br/> <input name="option" value="insert" type="radio">增 <inpu原创 2021-03-18 13:44:25 · 111 阅读 · 0 评论 -
Mybatis用法
一、介绍MyBatis 是一款优秀的持久层框架,它支持自定义 SQL、存储过程以及高级映射。MyBatis 免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作。MyBatis 可以通过简单的 XML 或注解来配置和映射原始类型、接口和 Java POJO(Plain Old Java Objects,普通老式 Java 对象)为数据库中的记录。二、使用1、导入依赖#lombok用来自动生成get、set方法的,可以不用 <dependency>原创 2021-03-15 19:23:04 · 101 阅读 · 1 评论 -
集群监控之zabbix
一、zabbix介绍zabbix是一种监控各种网络参数以及服务器健康性和完整性的软件整体架构二、安装规划hadoop102hadoop103hadoop104zabbix-agentzabbix-agentzabbix-agentzabbix-server\\zabbix-web\\MySQL\\配置1、关闭防火墙sudo service iptables stopsudo chkconfig iptables off2原创 2021-03-11 17:08:24 · 247 阅读 · 0 评论 -
Superset可视化界面安装
一、Superset介绍原创 2021-03-10 21:16:36 · 262 阅读 · 0 评论 -
大数据项目之日志数据采集(一)
日志数据采集平台搭建模型设计1、日志采集方案选择方案一:使用flume直接从日志服务器到hdfs不能采用原因:1、由于日志服务器较多,直接从日志服务器到HDFS,会导致HDFS的访问量过高,2、由于flume采集到不同服务器上的同一时间段的日志,会写入到HDFS上同一个目录中,而同一文件的写入不支持多线程同时写入。方案二:使用flume聚合再传输给hdfs此方案解决了方案一中多线程同时写入的问题。不能采用原因:由于flume聚合,多个flume将会写入到一个flume中,末端的f原创 2021-01-14 10:38:58 · 2081 阅读 · 0 评论 -
大数据项目之业务数据采集(二)
业务数据采集平台模型搭建1、业务采集业务数据:与企业核心业务相关的业务,存放在MySQL数据库中,需要将MySQL中的数据采集到hdfs中。方案选择1、数据传输:sqoop优势:1、sqoop使用在业务场景,使用与数据导入方式是RDMS和HDFS互相导入2、批处理场景!在非实时的项目中,第二天导入数据,所以不需要流式处理,sqoop通过启动mapreduce且只有map,可以快速的将数据导入到HDFS3、开源免费2、数据导入方式一、全量每天需要存一份完整数据,数据量不大,有更原创 2021-02-25 09:56:46 · 777 阅读 · 2 评论 -
大数据项目之数据采集总结(三)
一、数据采集项目总结1.数据仓库数据仓库是保存数据,为企业提供数据支持2.数据的分类业务数据: 记录的是订单的信息! 行为数据: 记录的是下单的过程发生的信息!2.1用户业务数据是什么:用户使用平台(电商)时产生的和电商的业务紧密相关(购买,下单,支付,收藏,搜索 )的数据!产生: 用户在使用APP时,产生!如何存: 关系型数据库为什么: 事务是区分场景可以使用RDMS和NoSql的核心要素! RDMS: OLTP(online t原创 2021-02-24 21:32:10 · 3076 阅读 · 0 评论 -
大数据项目之数仓项目(一)数仓搭建
一、项目框架版本名称版本hadoop3.1.3flume1.9.0kafka2.11-2.4.1zookeeper3.5.7mysql5.1.27sqoop1.4.6spark3.0.0hive3.1.2二、数仓分层ODS :原始数据层DWD:数据明细层DWS:数据服务层,轻微聚合DWT:数据主题层,ADS:数据应用层。本项目采用星型维度建模三、数仓搭建1、hive搭建...原创 2021-02-26 19:21:52 · 795 阅读 · 0 评论 -
大数据项目之数仓项目(二)各层数据导入
一、数据—>ODS层1.1、日志数据1.2、业务数据二、ODS层—>DWD层2.1、日志数据2.2、业务数据三、DWD层—>DWS层3.1、日志数据3.2、业务数据四、DWS层—>DWT层五、DWT层—>ADS层原创 2021-03-01 09:20:08 · 351 阅读 · 0 评论 -
Azkaban介绍、安装、使用
AZkaban工作流程一、配置数据库1、登录mysql数据库mysql -uxxx -pxxxx2、新建数据库azkaban,切换到azkaban数据库mysql> create database azkaban;mysql> use azkaban;3、建表(azkaban-db-3.84.4下的create-all-sql-3.84.4.sql)mysql> source create-all-sql-3.84.4.sql;...原创 2021-03-10 15:04:13 · 714 阅读 · 2 评论 -
Kylin常见问题汇总
一、web页面打不开分析查看日志tail -n 200 /opt/module/kylin/logs/kylin.log报错信息:java.lang.ClassCastException: com.fasterxml.jackson.datatype.jsr310.JavaTimeModule cannot be cast to com.fasterxml.jackson.da tabind.Module由于出现jar包冲突的问题,会通过find-hive-dependency.s原创 2021-03-10 11:02:53 · 1173 阅读 · 0 评论 -
即席查询之:Presto
一、Presto架构二、优缺点优点1、Presto采用内存到内存的方式,相对于Mapreduce查询(容错机制,为了保障准确性,中间写入磁盘),减少了中间写入磁盘,从磁盘读取数据的方式。计算更快2、减少阶段间的等待时间,Mapreduce不支持DAG,maptask未完成,不能执行reduce,Presto采取管道式传输的方式,边清理内存,边计算。3、可以连接多个数据源,比如同时查询hive和mysql的数据再合并缺点1、需要较大的内存2、关联查询会变慢三、安装0)官网地址原创 2021-03-09 21:24:09 · 311 阅读 · 0 评论 -
zeppelin介绍、安装
一、Zeppelin介绍Zeppelin是一款文本编辑器,连接不同的服务可以直接执行代码,提供交互数据分析和可视化。后台支持接入多种数据处理引擎,如即席查询kylin、计算引擎spark,hive等。支持多种语言:Markdown、Shell、 Scala、sql等官网地址: http://zeppelin.apache.org/二、安装(1)下载官方下载地址:http://zeppelin.apache.org/download.html(2)解压zeppelin-0.8.0-bin-al原创 2021-03-10 19:41:21 · 645 阅读 · 0 评论