- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 HDFS的高级功能(安全模式,回收站,快照,配额,高可用,联邦)
安全模式在NameNode主节点启动时,HDFS首先进入安全模式,在这个模式下HDFS只接受读数据请求,不能队文件进行写,删除操作。1)查看当前状态hdfs dfsadmin -safemode get2)进入安全模式hdfs dfsadmin -safemode enter3)强制离开安全模式hdfs dfsadmin -safemode leave4)一直等待直到安全模式结束...
2019-03-30 18:15:40 330
原创 配置secondaryNamenode到其他节点
只在主节点下的hdfs-site.xml<property> <name>dfs.http.address</name> <value>master:50070</value></property><property> <name>dfs.namenode.secondar...
2019-03-24 14:42:31 1822
原创 Hadoop的web下丢失datanode(解决)
在hdfs-site.xml下添加<property> <name>dfs.namenode.datanode.registration.ip-hostname-check</name> <value>false</value></property>
2019-03-24 14:15:57 724 1
原创 Sqoop的使用
Sqoop概述1)官网http://sqoop.apache.org/2)场景传统型缺点,分布式存储。把传统型数据库数据迁移。Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 。Sqoop安装部署1)下载安装包2)解压tar -zxvf .tar3)修改配置vi sqoop-env.shexp...
2019-03-11 15:33:07 113
转载 Flume中的拦截器(Interceptor)
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器:Timestamp Interceptor;Host Interceptor;Static Intercep...
2019-03-11 15:23:54 299
转载 如何转载别人的csdn博客
起意 看到一篇不错的博客,想转载但是不会(没有转载键),网搜发现没有Chrome浏览器的详细转载办法,受博主Bily猪启发,弄了这个教程,给小白的,大神勿嗤。时间紧急的直接看总结。实践检查。在喜欢的博客页面右键(用快捷键ctrl+shift+I也行只是比较难找到相应想要的html码)选择“检查”,出现如下...
2019-03-11 15:12:40 88
原创 flume配置详解
sources的type类型数据源为 linux的文件:例如:a1.sources.r1.type = execa1.sources.r1.command = tail -F /tmp/root/hive.loga1.sources.r1.shell = /bin/bash -c例如:a1.sources.r1.type = execa1.sources.r1.command =...
2019-03-11 15:04:14 628
原创 Hive自定义UDF函数
UDF:一进一出(User-Defined-Function)UDAF:多进一出 (count、max、min)UDTF:一进多出自定义UDF代码public class Lower extends UDF{ //大写转换为小写 public String evaluate(final String s) { if(s == null) { return null; ...
2019-03-05 22:59:09 372
原创 大数据组件优化参数以及其他参数设置总结(不断更新)
HIVE1)设置分桶set hive.enforce.bucketingset hive.enforce.bucketing=true;2)设置严格模式set hive.mapred.mode;set hive.mapred.mode=strict;3)设置压缩3.1)开启Map阶段输出压缩 开启输出压缩功能: set hive.exec.compress.i...
2019-03-05 11:22:10 430
原创 (电商项目实战)Spark累加器AccumulatorV2
spark2.x AccumulatorV2(累加器)Spark2.x之后,之前的的accumulator被废除,用AccumulatorV2代替;累加器(accumulator):Accumulator是仅仅被相关操作累加的变量,因此可以在并行中被有效地支持。它们可用于实现计数器(如MapReduce)或总和计数。Accumulator是存在于Driver端的,从节点不断把值发到Dr...
2019-03-02 18:11:56 910
winutils2.8.4-hadoop2.8.4
2018-11-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人