Hadoop
Ocean.k
接收自己的普通,然后拼尽全力去与众不同。
展开
-
面试之FLUME经典问题:Flume的Source阶段会丢数据吗?
会,但分情况当source使用的Execsource异步source,当channel 容量设置满了,是无法通知客户端暂停数据生成,会造成数据丢失。如何解决?可以考虑使用SpoolingDirSource或TailDirSource 或者自己写source...原创 2020-09-28 09:54:10 · 1929 阅读 · 0 评论 -
Flume配置文件案例(端口监听)
Flume配置文件案例定义agent名字为a1source名字叫r1,如果有多个,用空格间隔sink名字叫k1,channel名字叫c1a1.sources = r1a1.sinks = k1a1.channels = c1#组名名.属性名=属性值a1.sources.r1.type=netcata1.sources.r1.bind=hadoop102a1.sources.r1.port=99999#定义sinka1.sinks.k1.type=logger#定义ch原创 2020-09-27 23:21:22 · 260 阅读 · 0 评论 -
大数据框架用到的软件小结
yarn 集群计算资源的管理。MRmap:并行运算 将大的任务拆分成小的。reduce:汇总sqoop: 负责把关系型数据库采集到hadoopsql to hadoopflume: 采集日志数据 到hadoophbase:nosql数据库,对百亿数据库进行秒级查询 (非关系型数据库)kafka:消息队列既可以可以存储数据,也可以传输数据mapreduce space stome 内存计算用yarn申请资源调度mr是离线计算: 计算不会变化,计算的时候已经封闭了。sp原创 2020-09-10 21:52:11 · 94 阅读 · 0 评论 -
一句话搞懂Hive的4个BY排序
Hive的4个BY排序和实际应用中的使用Order BY 全局排序,生产环境基本不用,数据量太大 Sort BY 分区内排序 Distrbute By类似MR中Partition,进行分区生产环境sort by 和distrbute by 组合用的多 Cluster By 当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,..原创 2020-09-25 16:57:17 · 944 阅读 · 3 评论 -
一句话搞懂 Hive 内部表和外部表
什么是HIVE的内部表和外部表?1)内部表(也叫管理表):当我们删除一个内部表时,表元数据和原始数据都会删除。2)外部表:删除外部表只会删除表的元数据,原始数据不会删除。实际工作中,基本用到的都是外部表。内部表自己单机做测试时候使用。...原创 2020-09-25 16:25:59 · 155 阅读 · 0 评论 -
MapReduce的Shuffle过程及Hadoop优化
Shuffle原创 2020-09-21 19:23:34 · 187 阅读 · 0 评论 -
一句话掌握ZooKeeper选举机制及生产过程的台数建议
ZooKeeper 选举机制采用的是半数机制,2N+1。 安装奇数台。台数安装的越多,提高可靠性。但同时也影响通信时延。生产环境中,10台服务器安装3台ZK即可。20台安装5台zk。50台安装7台。原创 2020-09-21 00:11:36 · 348 阅读 · 1 评论 -
一张图完全掌握HDFS写数据流程
详细流程:1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完..原创 2020-09-14 11:06:48 · 204 阅读 · 0 评论 -
HDFS文件块大小的设置建议
HDFS文件块的大小不能设置太大,也不能设置太小。寻址时间若为10ms,即查找到目标block的时间为10ms。寻址时间为传输时间的1%时,为最佳状态。那么传输时间=10ms/1%=1000ms=1s目前市面上磁盘普通传输速率100MB/s,那block设置为128MB,1s*100MB/s=100MB如果是固态硬盘300MB/s,那block设置 应参考1s*300MB/s=300MB, 则设置为256MB。(因为大小要为2的n次方,选择最靠近即可)...原创 2020-09-12 11:55:32 · 727 阅读 · 0 评论