hadoop
TracyGao01
保持专注
展开
-
Hadoop Distcp:数据迁移
hadoop distcp数据迁移原创 2022-10-24 17:14:42 · 558 阅读 · 0 评论 -
HDFS:Datanode异常宕机重启后异常datanode.ReplicaAlreadyExistsException
hdfs datanode异常原创 2022-10-19 21:14:47 · 590 阅读 · 0 评论 -
Yarn CGroup启用配置
对于CPU密集型的使用场景,Yarn可以开启CGroup,约束应用程序的CPU使用率验证、启用服务Yarn配置原创 2022-06-10 10:54:13 · 385 阅读 · 1 评论 -
MapReduce:shuffle简单理解
如上图:Mapreduce shuffle流程, 从1到6是:1、map会把写进来的数据写入缓存,写入过程中,会根据key值做一次partition,partition的方式可以自定义2、之后,会进行一次排序,sort by key,方便后续的合并3、map阶段的combine,会根据key,进行数据数据合并,例如:4、合并后,数据开始溢写到磁盘,在map阶段完成前,会...原创 2019-12-31 13:52:49 · 280 阅读 · 0 评论 -
Kettle取代sqoop,实现hbase2mysql,mysql2hbase(小试)
背景:由于之前传统的数据库数据采集及集成到hbase,都在用sqoop(1.46),但是发现比较麻烦,虽然脚本很简单,但是还是比较繁琐,且发现各种bug,问题很多,就想采用kettle来做,本文档主要是对kettle可行性的调研本文采用kettle最新版本:7.1 (傻瓜式安装) cdh版本为5.11.0操作流程:由于最新版本的插件kettle7.1只能支持cdh5.10,...原创 2017-07-08 17:11:15 · 9761 阅读 · 0 评论 -
Name node is in safe mode 解除安全模式
hadoop dfsadmin -safemode leave原创 2017-09-15 18:02:19 · 860 阅读 · 0 评论 -
hadoop集群节点暴力删除后,hdfs异常处理
测试集群暴力删除5个节点之后,会出现hdfs异常问题,导致hive,hbase异常:1、hdfs推出安全模式hadoop dfsadmin -safemode leave2、hdfs数据块丢失hdfs fsck / -delete 删掉丢失块儿原创 2018-01-08 11:19:53 · 607 阅读 · 0 评论 -
关于hadoop yarn安全漏洞简单处理
最近大数据有3个集群都出现问题:现象:1、黑客注入脚本,以hadoop-yarn用户疯狂提交2、署名用户为yarn的进程疯狂占用CPU,整个集群CPU跑慢 处理:1、先收回\tmp目录的执行权限(为解燃眉之急,这一步是最快的,可以快速让环境恢复正常的)2、对yarn提交任务进行最小权限控制,用户权限控制3、运维安全管理,端口号管理(8088这个端口特别关照)...原创 2018-05-09 10:51:36 · 3569 阅读 · 1 评论