数据库、数据仓库
文章平均质量分 65
mysql、hive
带问号的小朋友
这个作者很懒,什么都没留下…
展开
-
数据中台
什么是数据中台核心本质就是:“数据仓库+数据服务中间件”数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享。随着业务的快速发展,企业的多条业务线都产生了大量的数据,而且数据都按照不同的形式进行采集、存储、处理等。为了快速满足每个前端业务的需求,公司通常会让前台直接去联系后台,初始可能比较有效,但是随着需求越来越多、越来越频繁,沟通成本大大提高,效率大大降低。同时,对于一个公司的多个业务来说,哪怕看起来很个性的需求,经过抽象以及合并同类项后,我们发现也可以形成共有的能力。其实,对于后台的很多功原创 2021-05-09 20:08:09 · 4069 阅读 · 6 评论 -
hiveUDF——返回指定时间区间内的日期数组
import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import java原创 2021-04-30 18:11:46 · 566 阅读 · 1 评论 -
简述离线数据处理流程
之前也做过一段时间的大数据,自己一直记性不太好,怕遗忘所以捞一下~本质其实就是一个数据的流转问题。。目录1.数据采集数据来源数据传输在数据采集时需要注意的一些问题2.数据预处理3.数据入库(数仓)数仓建设1. 需求分析2. 维度建模(星型模型)3. 设计数仓分层架构(ods-dwd-dws-ads)4. 定制规范(命名规范、模型规范、开发规范、流程规范)5. 数据治理(数据质量,数据安全,元数据管理)6. 开工ETL/BI,迭代开发1.数据采集数据来源主要分为两大块~数据库(结构化数据):基本原创 2021-02-03 18:17:06 · 3177 阅读 · 1 评论 -
Mysql更改表字段、编码、分区、添加索引
Mysql笔记最近工作中会用到相关mysql 和Python,碰到想不起来的或者不会的就记录一下,好记性不如烂笔头!更改表字段及默认编码://更改表的字段alter table table_name modify `real_name` double DEFAULT NULL COMMENT '';//更改表的默认编码为utf8ALTER TABLE `table_name` DEFAULT CHARACTER SET utf8;//更改表内所有字段编码为utf8alter table `t原创 2020-07-20 17:12:55 · 322 阅读 · 0 评论 -
hive中SQL转化为MapReduce任务的原理
MapReduce实现基本SQL操作的原理:Join的实现原理:select s.sname, c.cname from class c join student s on c.uid = s.uid;在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下:Group By的实现原理:select uid,city, count(*) from student group by uid,city;MapRe原创 2020-08-26 16:37:02 · 1861 阅读 · 0 评论