自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数仓分层+Hue操作+Oozie+sqoop导数据操作

1.数仓分层数仓分层的目的: 1)功能划分更明确 2)维护方便宽泛的数仓分层一共有三层: ODS层:源数据层 作用:对接源数据,将数据源中的数据加载到HDFS中,形成一张张表,和原数据库中保持同样的颗粒度 主要用于存放事实表和少量的维度表。在数据导入到ODS层的过程中,可能会对数据进行清洗(但并不一定会做这个操作) 原因:1、如果数据源来源于数据库,这个时候数据本身就是结构化数据 2、如果数据来源于各种文件,如日志文件等,可能需要对数据进行清洗,将数据转化为结构化数据

2021-07-27 11:28:05 445

原创 教育结构说明+数据仓库概念+维度、指标概念

知行教育结构说明+数据仓库概念+维度、指标概念1、项目背景1、近年来,在线教育产业发展十分迅速。尤其是2018年以来,在线教育平台动作不断,除了洋葱数学、考虫、作业盒子、火花思维、VIPKID、阿卡索等平台纷纷融资外,诸多在线教育平台纷纷上市。新东方在线也在2019年3月成功上市。在市场规模方面,在线教育很大程度上是随着移动互联网的浪潮发展起来的,在传统的PC时代,虽然出现了网络教育形式,但是真正的所谓在线教育仍然是在2011年左右开始爆发的,这也正是移动互联网发展和普及的时间点。统计数据显示,20

2021-07-27 11:18:46 617

原创 数仓(千亿项目理解)

项目流程1、原始数据在mysql存储2、使用kettle将数据在mysql同步到数据仓库(hive),(同步分为第一次全量+每天的增量=拉链表(目标:既能够保存历史的数据,又不会有数据冗余))3、hive数仓内结构Hive内部结构:ODS: 存储在数据源同步过来的数据DW:对ODS存储的数据进行过滤、填充,预计算,以及数据的拉宽。(拉宽:就是将业务上需要的字段,但是字段不在一个表中,使用拉宽(join)将这些字段合并到一个表中)ADS:存储最终计算后的结果4、使用kylin对hive内的数.

2021-07-05 04:07:52 313

原创 大数据面试题总结

大数据为什么这么快1、扩展性传统的是纵向扩展(服务器数量不变,每个的配置越来越高)大数据是横向扩展(每个的配置不变,但服务器数量越来越多)2、分布式传统的是集中式存储,集中式计算大数据是分布式存储,分布式计算3、可用性传统的是单份数据(存储数据的磁盘少)大数据是多份数据(存储数据的磁盘多)4、模型传统的是移动数据到程序端大数据是移动程序到数据端(减少了大量的IO开销和网络开销,利用并行计算,并行存储)大数据为什快横向扩展移动程序到数据端多个数据副本分布式存储(减小磁盘IO的

2021-07-05 03:43:35 1815

原创 用户画像_年龄段标签开发

年龄段标签开发统计型标签统计型标签是需要使用聚合函数计算后得到的标签,比如最近3个月的退单率,用户最常用的支付方式等等.年龄段标签开发:1、创建sparkSQL实例没用于读取hbase mysql数据2、链接mysql数据库url: String, table: String, properties: Properties3、读取四级标签数据使用## 切分再使用=切分将map 转换成样HBaseMeta例类var hbaseMeta: HBaseMeta = getHBaseMeta(

2021-07-05 03:10:08 528

原创 构建用户画像的详细流程

​首先,数据从点击流日志、用户交易数据、用户信息数据中获取,经过简单清洗转换,保存到HDFS集群中,然后将这些清洗后的数据映射到Hive数据仓库,通过对Spark集成hive,让Spark集群获取hive表的元数据信息,利用SQL去分层计算操作hive表中的数据,根据模型表统计计算标签属性。分析得到应用层后,将应用层的数据映射到HBase数据库集群中,再通过Phoenix整合HBase,通过...

2019-05-19 19:34:01 3487 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除