任乌拉
码龄10年
关注
提问 私信
  • 博客:71,225
    社区:461
    问答:5
    71,691
    总访问量
  • 42
    原创
  • 394,552
    排名
  • 54
    粉丝
  • 0
    铁粉

个人简介:公众号:任乌拉,欢迎同学关注~

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:香港
  • 加入CSDN时间: 2015-06-03
博客简介:

renzhixin1314的博客

查看详细资料
个人成就
  • 获得35次点赞
  • 内容获得7次评论
  • 获得183次收藏
创作历程
  • 3篇
    2021年
  • 8篇
    2020年
  • 19篇
    2019年
  • 9篇
    2018年
  • 3篇
    2017年
  • 1篇
    2016年
成就勋章
TA的专栏
  • hive笔记
    4篇
  • java
    1篇
  • java笔记
    1篇
  • redis笔记
  • maven
    1篇
  • hadoop
    1篇
  • 数据仓库
    1篇
  • docker
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flink为什么这么火

在实时计算里,最出名的是几个框架应该就是spark streaming 、storm和flink ,最近两年各大互联网大厂纷纷切到flink,为什么?为什么这么火?一个表格告诉你!1.在模型上,storm 和 flink 都是实时流,来一条处理一条,而spark streaming 是一个微批次处理,数据流被切分成一个个小的批次,一般单位是秒级。2.在功能上,flink 支持事件时间(ev...
原创
发布博客 2021.03.30 ·
322 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hdfs读写过程是怎样的?

1.文件读取过程 1.客户端通过调用FileSyste 对象的open()方法来打开希望读取的文件,对于Hdfs来说,这个对象是DistributedFileSystem的一个实例,2.通过使用远程过程调用(RPC)来调用namenode,以确定文件起始块的位置,对于每个块,namenode返回存有该块副本的datanode的地址,并且datanode根据他们与...
原创
发布博客 2021.01.12 ·
229 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Yarn是个什么玩意

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。 在hadoop1.0中有一些弊端,比如hdfs元数据信息保存的单节点故障,并且任务计算框架只能使用mapreduce,而且造成了任务管理器的压力过大,因此在hadoop2.0中加入了yarn资源统一管理的机制,不仅解...
原创
发布博客 2021.01.12 ·
515 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

十万个为什么(hadoop 1期)?

纳尼?纳尼?纳尼?1.什么是map的数据本地化优化?Hadoop 在存储有输入数据(hdfs中的数据)的节点上运行map任务,可以获得最佳性能,因为他无需使用宝贵的集群带宽资源。这就是所谓的数据本地化优化,但是有时对于一个map任务的输入分片来说,存储该分片的hdfs数据块副本的所有节点可能正在运行其他map任务,此时作业调度需要从某一数据块所在的机架中的一个节点上寻找一个空闲的map槽(...
原创
发布博客 2020.11.01 ·
177 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

小伙子,你知道缓慢变化维有多少种处理方法吗?

什么是缓慢变化维?缓慢变化维有多少种处理方法?缓慢变化维,即同一维表中属性随时间发生变化,那对于这种变化的维度,在数据仓库建设时有多少种处理方法咧~一、基础型0.原样保留维度属性不会发生变化,保留原值。这种适合属性标记为‘原型’的的情况,像用户的身份证号,商品的上架时间等1.重写属性值被新值覆盖。这种情况只反映最近的工作,易实现,但破坏了历史情况,需小心使用2.增加新行在维度表中增加...
原创
发布博客 2020.07.18 ·
513 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Doris调研学习

简介:Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入Apache 孵化器。定位:MPP 架构的关系型分析数据库PB 级别大数据集,秒级 / 毫秒级查询主要用于多维分析和报表查询2018 年进入 Apache 孵化器架构:Doris 的架构很简洁,只设 F...
原创
发布博客 2020.05.13 ·
839 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据仓库日期维表怎么做

最近终于有点时间了,东拼西凑的设计了一个日期维表,也是数仓设计时比较常用的。表结构如下:dt string COMMENT '日历日期',lunar_dt string COMMENT '农历日期',calendar_year int COMMENT '日历年',quarter_of_year int COMMENT '季度',month_of_year int COM...
原创
发布博客 2020.04.16 ·
3554 阅读 ·
2 点赞 ·
2 评论 ·
8 收藏

Map Reduce执行过程

Map Reduce 执行过程是数仓hql调优所必须熟知的,也是初高级数仓工程师面试基本必问的一块内容,所以为了面包,巩固学习一下。 Map Reduce 执行过程:map阶段 ---> shuffle阶段 ---> reduce阶段 map阶段 1.分片读取...
原创
发布博客 2020.03.18 ·
1382 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

算法修炼

冒泡与快排(更新中)冒泡排序快速排序import java.util.Arrays;public class SortFun { public void bubbleSort(int[] arr){ int n = arr.length; if(n<=1){ return ...
原创
发布博客 2020.01.14 ·
153 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive谓词下放

保留表(Preserved Row table)在outer join中需要返回所有数据的表叫做保留表,也就是说在left outer join中,左表需要返回所有数据,则左表是保留表;right outer join中右表则是保留表;在full outer join中左表和右表都要返回所有数据,则左右表都是保留表。Null Supplying table在outer ...
原创
发布博客 2020.01.04 ·
207 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive连续登录问题

现在有一张用户消费信息表,求问连续三天登录用户有多少个,用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数:user_id bigint comment '广告主id',daystr comment '日期'price decimal(10,2) comment '消费金额'数据预处理:create table user_log_test (user_...
原创
发布博客 2020.01.03 ·
1198 阅读 ·
0 点赞 ·
2 评论 ·
4 收藏

hive窗口函数使用

hive窗口函数基本面试面sql必考项目,这里画一下重点猴,那现在就操练起来~窗口函数格式:function_name(field) over (partition by field order by field rows between unbounded preceding and current row)窗口说明:n PRECEDING:往前n行数据n FOLL...
原创
发布博客 2019.12.25 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数仓基础入门-10-实践篇

有不少没涉及过数仓的同学问我一些比较基础的问题,为了更好的理解前面讲到的一些理论,写一个小小的demo体会一下~~我们要构建一个订单主题,构建订单明细,订单sku,订单粒度三张表。(假设我们只有一个数据域,单纯的为了举个例子,有一个大概的理解)模型设计及概念可阅读《数仓基础入门》系列历史文章,三言两语就打发了,具体深意自己体会~????ods层表日志表:ods_order_det...
原创
发布博客 2019.12.10 ·
302 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数仓入门基础-9-缓慢变化维

缓慢变化维的提出是因为维度的属性并不是静态的,他会随着时间线延长发生缓慢的变化。常用的三种处理方式:1.重写维度值,不保留历史,始终取最新数据。2.插入新的维度行,历史事实数据与历史维度关联,新的事实数据与新的维度关联。3.插入新的维度列。举个????:有一个商店店铺,20191101类目是A,20191102更改为B。商店id类目其他属性日期100...
原创
发布博客 2019.12.02 ·
199 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

空字段引发的惨案

惨案经过:有一张效果广告的表tmp_xiaoguo_table,有字段 dt 日期,order_id 订单,ocpx_stage ocpx阶段(ocpx单子才有),price金额。dt string "日期"order_id bigint "订单id"ocpx_stage tinyint "ocpx阶段 "price decimal(28,2) "金额"数据...
原创
发布博客 2019.11.30 ·
106 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

号外号外!公众号开通了!!!

最近发现自己越来越懒了,好久没更新博客了,为了更好的可持续的监督自己学习,沉淀,我开通了公众号,保持每周至少更新一篇,立帖为证!!!另外公众号会定期分享一些免费视频与书籍,以供大家参考学习。本次分享的是廖雪峰 【大数据分析全栈工程师】视频课程(据说价值8000RMB),费了牛劲才搞到的,不要问我咋弄到的????,关注公众号,回复【资源】即可获得相关链接吼~1...
原创
发布博客 2019.11.28 ·
196 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

2019-11-20 shell学习

删除目录下固定大小的文件find . -name "*" -type f -size 0c | xargs -n 1 rm -f## 删除目录下大小为0 的文件循环查询hive表分区目录下文件个数#!/bin/sh#开始时间-yyyy-mm-dd Hbegin="2019-11-20 00:00:00"end=""2019-11-20 23:00:00""hive...
原创
发布博客 2019.11.20 ·
122 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 参数调优手册

hive执行过程1. reduce 个数设置方法1.调整hive.exec.reducers.bytes.per.reducer和hive.exec.reducers.maxhive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1G)hive.exec.reducers.max(每个任务最大的reduc...
原创
发布博客 2019.11.17 ·
620 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

数仓入门基础-2-技术栈

1.hive sql >> 五星在大多数的工作中,主要用的语言就是sql,说难不难,只要做的多了,基本就可以融会贯通,当然也要了解 hive ,清楚常运用到的优化方法。推荐书籍:《hive权威指南》技能点:-1.常用的sql 查询语句,select where sum group order常用sql语句,row_number()over等窗口函数使用,ma...
原创
发布博客 2019.09.20 ·
733 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

2.2正态分布检测

# -*- encoding: utf-8 -*-import sysimport numpy as npimport pandas as pdfrom scipy import stats as stsimport matplotlib.pyplot as pltimport matplotlib as mplif __name__ == "__main__":...
原创
发布博客 2019.08.27 ·
266 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多