- 博客(4)
- 收藏
- 关注
原创 Docker环境下的Hadoop,HBase Shell 实战
"当然,在这种特定情况下,最高效的方法是不用过滤器,而是直接在 `scan` 命令中指定列族:"真正的数据删除发生在未来的“大合并”(Major Compaction) 过程中。Filter 在服务端执行,只返回客户端需要的数据,极大减少了网络 IO。深入理解“版本”、“列动态添加”和“稀疏表”的概念。之后的下一个字典序的值。"我们来为 Tom 记录登录次数,每次加 1。"查找所有名字叫 'Jerry' 的学生。"Spike 的数学成绩录错了,需要删除。"Spike 退学了,删除他的所有数据。
2026-01-22 16:09:53
624
原创 为docker-hadoop项目集成HBase环境
文件的方式,将 HBase Master 和 HBase RegionServer 作为新的服务加入集群,并确保它们能与 Hadoop HDFS 正确集成。这种声明式的方法保证了环境的一致性、可移植性和易管理性。此脚本负责在容器启动时动态生成配置文件,并用正确的方式启动 HBase 服务,避免容器闪退。# 3.1: 将 Debian 的 apt 源更换为国内清华镜像,解决 apt-get 慢的问题。如果一切正常,您将看到类似下面的健康状态报告,这意味着您的 HBase 集群已成功搭建并可供使用!
2025-11-14 17:50:17
693
原创 HDFS的命令行与 Python API 交互
一个更现代和可能更兼容的配置是,直接声明一个所有节点都能访问的域名。重启后,当NameNode再重定向您的Python客户端时,它就会提供一个基于IP的、您的Windows主机可以理解的地址,问题就解决了。print(f"从HDFS读取到的文件内容:\n---\n{content_from_hdfs}\n---"): 仔细观察PyCharm的运行控制台输出,它会一步步地显示连接、创建、写入、读取、下载和删除的过程。: "concatenate"的缩写,将指定路径的文件内容输出到标准输出(也就是您的终端)。
2025-10-19 17:22:23
970
原创 使用docker安装Hadoop
我们将使用一个非常流行的开源项目 big-data-europe/docker-hadoop,它通过 docker-compose 来一键部署一个包含 NameNode 和多个 DataNode 的 Hadoop 集群。``` * `docker-compose up` 会根据 `docker-compose.yml` 文件来拉取所需的镜像并创建和启动容器。这个任务会读取 input 目录下的所有文件,计算其中每个单词出现的次数,并将结果输出到 output 目录。
2025-09-28 11:52:33
1000
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅