Monstar_L
码龄11年
关注
提问 私信
  • 博客:21,436
    21,436
    总访问量
  • 12
    原创
  • 1,811,147
    排名
  • 20
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2014-06-23
博客简介:

Monstar_L的博客

博客描述:
想通过写博客加深理解的小白玩家
查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得2次评论
  • 获得29次收藏
创作历程
  • 5篇
    2022年
  • 1篇
    2020年
  • 2篇
    2019年
  • 5篇
    2018年
成就勋章
TA的专栏
  • Flink
    2篇
  • 杂项
    1篇
  • MapReduce实战案例
  • Spark
  • Hadoop
    5篇
  • Hive
    5篇
兴趣领域 设置
  • 大数据
    hadoophiveetl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive指标统计篇

大数据指标计算,通过Hive实现
原创
发布博客 2022.06.15 ·
1240 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

Hadoop文件压缩及存储格式

目录一、压缩格式Hive 数据压缩的优缺点Hive 压缩格式对应的Hadoop编码/解码器方式Hive 常见的压缩格式对应的压缩性能比较扩展下:怎样对压缩模式进行评价?二、存储格式Hive 中的 TEXTFILE 文件存储格式Hive 中的 SequenceFile 文件存储格式Hive 中的 RCFILE 文件存储格式Hive 中的常用文件存储格式 ORCFILEHive 中的常用文件存储格式 Parquet什么是行式存储和列式存储对于 Hive表文件存
转载
发布博客 2022.04.11 ·
1968 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

Flink实时数仓落地方案

实时数仓架构图:说明:数据采集层:原始数据目前分三种,由中台生成的埋点日志用于主流,RDBMS则是获取业务库表,通常用于维表关系所需,binlog日志通过cdc方式进入kafka进行消费,用于大维表的增量更新。数据计算层:数据计算层的计算引擎是Flink,通过较上层的FlinkSQL实现数据的ETL加工,其中HDFS作用于大维表初始化到Hbase过程所用,再通过Flinksql消费binlog日志进行增量更新。数据共享层:通过Flinksql对主流表进行打宽后输出到dw层kafka为最终
原创
发布博客 2022.03.23 ·
2822 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

大数据开发面试题记录

针对碰到的一些问题进行汇总剖析
原创
发布博客 2022.03.16 ·
269 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ProcessWindowFunction算子单独使用性能较差,如何结合ReduceFunction和AggregateFunction算子结合使用

ProcessWindowFunction结合ReduceFunction、AggregateFunction使用的优化小技巧
原创
发布博客 2022.01.12 ·
600 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

数据仓库之极限存储实施

数据仓库之极限存储实施一、前言本文参考大数据之路--阿里巴巴大数据实践内容,针对数据仓库中拉链表的存储进行了设计与实践。在本公司实际处理拉链表过程中,采用的是每天分区全量存储历史所有数据,这样极大地增加的存储的成本和数据查询效率。针对此种情况,通过极限存储的方式进行优化,此种方式会增加两个时间戳字段(分区字段:开始时间分区:start_date和结束时间分区:end_date),将所有以天为粒度的变更数据都记录下来。二、原累计表处理方式2.1 原数仓表结构:CREATE TABLE I
原创
发布博客 2020.08.01 ·
1314 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

数仓Hive基础调优

引言此篇文章主要针对hive在执行hql时候,所面临的执行效率慢、数据倾斜、jobs任务过多情况进行分析调优;由于本人也是初次了解hive调优方面知识,在网上也查阅了很多资料,写下此篇文章也是为了巩固自己的知识点及能够与各位同学相互交流学习。以下本人会针对配置参数、HQL语句两个方面进行相关调优说明,另外在优化过程中,需要结合业务逻辑去优化会达到事半功倍的效果,后续会陆续更新此方面知识。...
原创
发布博客 2019.06.13 ·
808 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Hive函数篇

引言Hive是基于hadoop的数据仓库工具,能够将一张结构化的数据文件映射为一张数据库表。以便于在Hive中通过类似于传统sql(Hive中我们叫hql)做数据分析等工作。Hive默认计算模型是MapperReduce,将hql转换成MR任务进行计算;在Hive中还有Hive on Spark的模式,这里仅做了解。本文主要是在工作中使用Hive的时候,对一些用到的函数进行记录,以便后续查阅...
原创
发布博客 2019.06.10 ·
2041 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

五、Linux安装rpm文件时报错

一、下载rpm文件    在配置Hue中需要安装大量rpm文件,其中包括:        我们可以直接在linux的镜像文件中解压Package文件夹中rpm数据,并筛选出当中需要的rpm文件    二、上传文件到远程服务器中    将rpm文件通过xftp的方式上传到远程服务器中三、执行安装命令    1、通过yum install *报错    Resolving Dependencies--...
原创
发布博客 2018.07.04 ·
7221 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

四、Hadoop全分布模式配置流程

一、安装linux环境   1、linux环境在这里就不进行描述了,我这里安装的是[《红帽企业linux.6.2》(red.hat.enterprise.linux.6.2)6.2[光盘镜像]].rhel-server-6.2-i386-dvd.iso,这是32位的操作系统(getconf LONG_BIT命令)。        1.1在配置网络适配器时候需注意选择仅主机模式,否则会在后续连接不成...
原创
发布博客 2018.07.04 ·
546 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

三、MapReduce理解

一、第一个MapReduce应用程序二、Hadoop的序列化三、实现MapReduce排序四、实现MapReduce分区五、MapReduce的Combiner六、MapReduce的Shuffle
原创
发布博客 2018.07.04 ·
384 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

一、初识Hadoop文件上传下载过程

一、Hadoop各节点的作用    参考https://blog.csdn.net/gamer_gyt/article/details/51758881    1.Namenode        参考:https://blog.csdn.net/lb812913059/article/details/78713634        负责文件元数据的管理操作以及处理客户端请求。      2.Dat...
原创
发布博客 2018.07.02 ·
1537 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

二、Hadoop环境安装及SSH设置免密码登录

一、Hadoop本地模式安装    安装hadoop本地模式只为了测试mapredure功能,不具备hdfs功能    步骤:    1.上传hadoop安装包hadoop-2.6.0.tar.gz到linux系统中    2.通过tar -zxvf hadoop-2.6.0.tar.gz -C ~/training命令将安装包解压到指定目录    3.通过vi ~/.bash...
原创
发布博客 2018.07.02 ·
642 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏