Hadoop
文章平均质量分 68
大数据相关组件
Richard123m
行百里者半九十
展开
-
Hive 3.1.2 编译
Hive3使用Spark3编译原创 2022-09-30 23:23:30 · 1119 阅读 · 0 评论 -
Spark 1 -- UpdateStateByKey
在实时计算的实际应用中,有时除了需要关心一个时间间隔内的数据,有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如: 对Nginx的access.log实时监控请求404时,有时除了需要统计某个时间间隔内出现的次数,有时还需要统计一整天出现了多少次404,也就是说404监控横跨多个时间间隔。Spark Streaming的解决方案是累加器,工作原理是,定义一个类似全...转载 2019-04-12 11:01:50 · 124 阅读 · 0 评论 -
清空HDFS回收站
直接删除目录(不放入回收站)hdfs dfs -rm -skipTrash /path/to/file/you/want/to/remove/permanently1如果不加-skipTrash,删除的目录会放入/user/hdfs/.Trash中。有专门的配置项来指定什么时候清空回收站。清空回收站hdfs dfs -expunge1This should gi转载 2017-09-27 10:32:13 · 1374 阅读 · 0 评论 -
hadoop与storm的区别
转载 2017-10-17 09:54:41 · 566 阅读 · 0 评论 -
CDH安装Phoenix
1.文档编写目的昨天我们简单介绍了一下Apache Phoenix,请参考Cloudera Labs中的Phoenix。今天我们主要讲述如何在CDH中安装配置Phoenix,并会做一些使用示例。内容概述1.安装及配置Phoenix2.Phoenix的基本操作3.使用Phoenix bulkload数据到HBase4.使用Phoenix从HBase中导出数据到HDFS测试环...转载 2018-07-31 14:14:33 · 3956 阅读 · 0 评论 -
CDH学习记录
目录1. 离线安装(parcel)1.1 环境1.2 下线离线包1.2.1 下线Cloudera Manager1.2.2 下载cdh包1.3 主机名及IP1.3.1 cm1.3.2 agent1.3.3 验证1.4 设置/etc/hosts1.5 禁用ipv61.5.1 查看ipv6状态1.5.2 关闭ipv61.5.3 验证1.6 N...原创 2018-11-13 10:28:19 · 1098 阅读 · 0 评论