电商数仓
zzulikang
一个小菜鸡
展开
-
sqoop基本操作
导入数据导入到HDFS// \代表在shell窗口中换行bin/sqoop import \// 连接的url--connect jdbc:mysql://hadoop102:3306/mydb \// 用户名--username root \// 密码--password 123456 \// 要导哪个表的数据--table staff \// 将数据导入到hdfs的哪个路径--target-dir /company \// 如果目标目录存在就删除--delete-tar原创 2020-07-14 15:30:58 · 389 阅读 · 0 评论 -
Zookeeper的API案例
maven项目中的porn文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apach原创 2020-07-12 21:39:51 · 315 阅读 · 1 评论 -
Flume企业面试题
怎么实现Flume数据传输的监控?使用第三方框架Ganglia实时监控Flume。Flume的Source,Sink,Channel的作用?你们Source是什么类型?1 作用1 Source组件是专门用于收集数据的,可以出来各种类型的数据,各种格式的日志数据,报告avro,exec,jms,spooling,directory,netcat,syslog,http,legacy2 Channel组件对采集到的数据进行缓存,可以存放在Memory或File中3 Sink组件是用于把数据发送到目的原创 2020-07-12 00:12:38 · 229 阅读 · 0 评论 -
Flume的安装和基本使用
安装部署1 将apache-flume-1.7.0-bin.tar.gz解压,2 将flume/conf下的flume-env.sh.template改为flume-env.sh,配置信息:export JAVA_HOME=/opt/module/jdk1.8.0_144flume手册案例一:监控端口数据 (netcat为source,logger为sink)# example.conf: A single-node Flume configuration# Name the componen原创 2020-07-11 16:13:56 · 402 阅读 · 0 评论 -
Hadoop一些基本配置参数调优
HDFS参数调优hdfs-site.xmldfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,此参数设置为60YARN参数调优yarn-site.xmla)yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。b)yarn.scheduler.m原创 2020-07-10 14:53:37 · 196 阅读 · 0 评论