houzhizhen
码龄18年
关注
提问 私信
  • 博客:1,284,373
    社区:57
    1,284,430
    总访问量
  • 641
    原创
  • 5,524
    排名
  • 883
    粉丝
  • 4
    铁粉

个人简介:专注大数据处理和分布式计算。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2006-09-06
博客简介:

houzhizhen的专栏

博客描述:
bigdata hobbyist
查看详细资料
  • 原力等级
    当前等级
    6
    当前总分
    2,979
    当月
    19
个人成就
  • 获得1,229次点赞
  • 内容获得73次评论
  • 获得1,831次收藏
  • 代码片获得2,428次分享
创作历程
  • 77篇
    2024年
  • 42篇
    2023年
  • 73篇
    2022年
  • 96篇
    2021年
  • 56篇
    2020年
  • 33篇
    2019年
  • 76篇
    2018年
  • 204篇
    2017年
  • 107篇
    2016年
  • 36篇
    2015年
  • 21篇
    2014年
成就勋章
TA的专栏
  • StarRocks
    1篇
  • computer
    2篇
  • data-warehouse
    1篇
  • iceberg
    4篇
  • trino
    1篇
  • k8s
    52篇
  • golang
    8篇
  • sql
    2篇
  • MaxCompute
    1篇
  • database
    2篇
  • Impala
    1篇
  • conputer-architecture
  • Presto
    1篇
  • yarn
    8篇
  • sqoop
    1篇
  • clickhouse
  • calcite
    1篇
  • 文档
    1篇
  • hugegraph-doc
  • ldap
    3篇
  • ranger
  • network
    1篇
  • english
    1篇
  • design-patterns
    1篇
  • jython
  • chrome
    1篇
  • algorithm
    1篇
  • mpc
  • oracle
    1篇
  • document
    2篇
  • deep-learning
    2篇
  • anaconda
    1篇
  • deep-learning-coursera
    21篇
  • TensorFlow
    1篇
  • linux
    60篇
  • ubuntu
    1篇
  • java
    38篇
  • mysql
    3篇
  • postgresql
    1篇
  • hive
    156篇
  • hadoop
    47篇
  • excel
    1篇
  • git
    31篇
  • mvn
    7篇
  • spark
    158篇
  • storm
    2篇
  • kafka
    2篇
  • zookeeper
    6篇
  • hadoop-hdfs
    40篇
  • hadoop-yarn
    28篇
  • scala
    20篇
  • docker
    3篇
  • graphdb
    18篇
  • other
    3篇
  • 算法
    2篇
  • WhereHows
    1篇
  • paddle
    1篇
  • metric
  • bigdata
  • intellj idea
    1篇
  • security
    3篇
  • common
    1篇
  • hadoop-mapreduce
    5篇
  • antlr
    2篇
  • tez
    8篇
  • mac
    7篇
  • mockito
    1篇
  • c/c++
    5篇
  • sgx
    9篇
兴趣领域 设置
  • 大数据
    hadoophivebig datahdfsmapreduce大数据
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

StarRocks 架构

StarRocks 是 MPP 的查询引擎,用来做实时查询,提供亚秒级的查询性能。兼容 MYSQL 协议,可以和大部分 BI 工具进行无缝衔接。Apache 2.0 开源产品。
原创
发布博客 2024.11.18 ·
466 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

数据仓库为什么要分层建设?每一层的作用是什么?

例如,从ODS层中对用户的行为做一个初步的归类汇总,抽象出来一些通用的维度,假设维度为时间、IP、ID,并根据这些维度统计出相关数据,比如用户每个时间段在不同登录IP购买的商品数。或存放概念模型的维度定义,通过定义维度,确定维度主键,添加维度属性,关联不同维度等操作,构建整个企业的一致性数据分析维表,帮助您降低数据计算口径和算法不统一的风险。ODS层用于接收并处理需要存储至数据仓库系统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据仓库的数据准备区。二、每一层的作用是什么?
原创
发布博客 2024.11.15 ·
445 阅读 ·
5 点赞 ·
0 评论 ·
12 收藏

hive alter table add columns 是否使用 cascade 的方案

时加上 cascade 时,会把所有的分区都加上此字段。如果不加则只有新的分区会加上此字段,旧的分区没有此字段,即便数据文件里有对应的数据,也不能显示内容。注:判断表是否是外部表,使用 ‘show create table xxx’, 如果生成的是 ‘CREATE TABLE’ 是内部表,如果是是外部表。
原创
发布博客 2024.11.12 ·
1061 阅读 ·
17 点赞 ·
0 评论 ·
19 收藏

HiveMetastore 的架构简析

Hive Metastore 是 Hive 元数据管理的服务。可以把元数据存储在数据库中。对外通过 api 访问。
原创
发布博客 2024.11.06 ·
1002 阅读 ·
22 点赞 ·
0 评论 ·
20 收藏

Java 在 finally 里返回会忽略执行中的任意异常

Java 在 finally 里返回会忽略执行中的任意异常。当参数为 0 时,会抛出异常,然后进入finally 代码块, finally 中,有 return,会返回 “not success”,不会继续向上层抛出异常。如果我们的上层代码依赖异常,则会返回错误的结果。
原创
发布博客 2024.11.04 ·
236 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

Iceberg Catalog 的实现和迁移

因为在任意时刻,所有的读和写操作看到表的表的状态是相同的。两个并发的写入操作,第 2 个写入操作提交的时候不能覆写第 1 个写入操作对数据的修改,导致数据丢失。Iceberg Catalog 的接口定义了各种 Catalog 需要实现的方法,主要包括列出存在的表,创建表,删除表,检查表是否存在,给表改名。并且都支持迁移表的整个历史。register 迁移后,不删除旧的 catalog 中表定义,可以用来预迁移的验证。使用 register,不能使用不同的 catalog 写入数据,这样会导致数据丢失。
原创
发布博客 2024.10.09 ·
1166 阅读 ·
8 点赞 ·
0 评论 ·
18 收藏

优化 Iceberg 表的性能

每组文件合并之后,就生成一个新的快照,这样新的查询就可以利用合并的快照。| Merge-on-Read(equality deletes) | 慢 | 最快 | 使用更频繁的合并减少读开销 |如果表的字段非常多,可能照成 meta 文件特别大,可以关闭某些字段的收集或者限制收集的内容。如果快照的数量少于第3个参数设置的数量,则不清除。没有包含在 manifest 中的文件,如失败的作业建立的文件。特别是实时计算,每次插入特别少的记录,导致生成大量的文件。更改分区字段,新的写入立即生效。
原创
发布博客 2024.09.26 ·
522 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

Iceberg 表不能用 Show Partitions 显示分区信息

【代码】Iceberg 表不能用 Show Partitions 显示分区信息。
原创
发布博客 2024.09.23 ·
313 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Apache Iceberg 读写查询

metadata 下有4个文件,去掉创建时生成的 00000-831f9491-0ebf-45e6-9ead-902bc62ba658.metadata.json,现在解释以下 3 个文件。这时表目录下仅有一个 metadata 目录,metadata 目录下有一个 metadata.json 文件。第1列是数据生成的 timestamp,第2列是快照 ID。可以看到 metadata 文件增加了 3 个文件。插入记录后,表目录下有data 目录。或者 --package 参数。iceberg 是库名。
原创
发布博客 2024.09.20 ·
801 阅读 ·
4 点赞 ·
0 评论 ·
6 收藏

Trino 测试

安全模式下 连接 7778 端口,并且连接方式是 https。非安全模式连接 8089 端口,并且连接方式是 http。
原创
发布博客 2024.08.21 ·
301 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

以 http 方式启动 SparkThriftServer

beeline 连接 Spark thriftServer 的参数。
原创
发布博客 2024.08.14 ·
286 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Hadoop debug

【代码】Hadoop 远程 debug。
原创
发布博客 2024.07.05 ·
286 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Kubernetes 文档 / 概念 / 存储 / 持久卷

存储的管理是一个与计算实例的管理完全不同的问题。PersistentVolume 子系统为用户和管理员提供了一组 API, 将存储如何制备的细节从其如何被使用中抽象出来。为了实现这点,我们引入了两个新的 API 资源:PersistentVolume 和 PersistentVolumeClaim持久卷(PersistentVolume,PV)是集群中的一块存储,可以由管理员事先制备, 或者使用存储类(Storage Class)来动态制备。持久卷是集群资源,就像节点也是集群资源一样。
原创
发布博客 2024.07.01 ·
1134 阅读 ·
25 点赞 ·
0 评论 ·
8 收藏

Kubernetes 文档 / 概念 / 存储 / 卷

此文档从 Kubernetes 官网摘录容器中的文件在磁盘上是临时存放的,这给在容器中运行较重要的应用带来一些问题。当容器崩溃或停止时会出现一个问题。此时容器状态未保存, 因此在容器生命周期内创建或修改的所有文件都将丢失。在崩溃期间,kubelet 会以干净的状态重新启动容器。当多个容器在一个 Pod 中运行并且需要共享文件时,会出现另一个问题。跨所有容器设置和访问共享文件系统具有一定的挑战性。
原创
发布博客 2024.06.11 ·
1032 阅读 ·
8 点赞 ·
0 评论 ·
17 收藏

Kubernetes 文档 / 概念 / 服务、负载均衡和联网 / 服务内部流量策略

此文档从 Kubernetes 官网摘录服务内部流量策略开启了内部流量限制,将内部流量只路由到发起方所处节点内的服务端点。这里的”内部“流量指当前集群中的 Pod 所发起的流量。这种机制有助于节省开销,提升效率。
原创
发布博客 2024.06.10 ·
370 阅读 ·
5 点赞 ·
0 评论 ·
1 收藏

Kubernetes 文档 / 概念 / 服务、负载均衡和联网 / Service ClusterIP 分配

此文档从 Kubernetes 官网摘录在 Kubernetes 中,Service 是一种抽象的方式, 用于公开在一组 Pod 上运行的应用。Service 可以具有集群作用域的虚拟 IP 地址(使用 type: ClusterIP 的 Service)。客户端可以使用该虚拟 IP 地址进行连接,Kubernetes 通过不同的后台 Pod 对该 Service 的流量进行负载均衡。
原创
发布博客 2024.06.10 ·
1188 阅读 ·
8 点赞 ·
2 评论 ·
20 收藏

Kubernetes 文档 / 概念 / 服务、负载均衡和联网 / 拓扑感知路由

Kubernetes 的部署方式有很多种,没有一种按区域分配端点的启发式方法能够适用于所有场景。此特性的一个关键目标是:如果内置的启发方式不能满足你的使用场景,则可以开发自定义的启发方式。启用自定义启发方式的第一步包含在了 1.27 版本中。这是一个限制性较强的实现,可能尚未涵盖一些重要的、可进一步探索的场景。
原创
发布博客 2024.06.10 ·
1040 阅读 ·
22 点赞 ·
0 评论 ·
22 收藏

# Kubernetes 文档 / 概念 / 服务、负载均衡和联网 / IPv4/IPv6 双协议栈

此文档从 Kubernetes 官网摘录。
原创
发布博客 2024.06.10 ·
1164 阅读 ·
16 点赞 ·
0 评论 ·
23 收藏

Kubernetes 文档 / 概念 / 服务、负载均衡和联网 / Service 与 Pod 的 DNS

此文档从 Kubernetes 官网摘录。
原创
发布博客 2024.06.09 ·
713 阅读 ·
14 点赞 ·
0 评论 ·
8 收藏

Kubernetes 文档 / 概念 / 服务、负载均衡和联网 / 网络策略

此文档从 Kubernetes 官网摘录如果你希望针对 TCP、UDP 和 SCTP 协议在 IP 地址或端口层面控制网络流量, 则你可以考虑为集群中特定应用使用 Kubernetes 网络策略(NetworkPolicy)。在定义基于 Pod 或名字空间的 NetworkPolicy 时, 你会使用选择算符来设定哪些流量可以进入或离开与该算符匹配的 Pod。另外,当创建基于 IP 的 NetworkPolicy 时,我们基于 IP 组块(CIDR 范围)来定义策略。
原创
发布博客 2024.06.03 ·
602 阅读 ·
6 点赞 ·
0 评论 ·
4 收藏
加载更多