- 博客(10)
- 收藏
- 关注
转载 Flume面试题【详细】
1.Flume 采集数据会丢失吗?不会,Channel 存储可以存储在 File 中,数据传输自身有事务。2.Flume 与 Kafka 的选取?采集层主要可以使用 Flume、Kafka 两种技术。Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展 API。Kafka:Kafka 是一个可持久化的分布式的消息队列。Kafka 是一个非常通用的系统。...
2020-02-07 11:32:15
888
原创 关于flume使用SpoolDir监控目录传入文件时报出java.nio.charset.MalformedInputException: Input length = 1,个人解决方案
错误总结今天测试flume框架时使用SpoolDir监控目录的形式启动了flume,传入文件时报出了如下错误:解决方法有两种:以下两种方法都可试一试(1)问题原因:source组件的属性 inputCharset 默认的是 UTF-8, 但实际读取的文件类型是 ANSI(GBK)。解决方案:a1.sources.r2.inputCharset = GBK //将 inputC...
2019-08-26 17:56:18
830
1
原创 Zookeeper【概述、安装、简单javaAPI操作】
概述Zookeeper是源代码开放的分布式协调服务,是一个高性能的分布式数据一致性的解决方案,它将那些复杂的,容易出错的分布式一致性服务封装起来。用户可以通过调用Zookeeper提供的接口来解决一些分布式应用中的实际问题。zookeeper功能:1、可以为客户端管理数据(k,v)k-目录(子目录) ,v-都行2、可以为客户端监听指定数据节点的状态,并在指定数据节点发生变化时,通知客户端...
2019-08-19 11:59:56
218
原创 hive自定义函数【UDF】详解
UDF 全称为 User Defined Function,即用户自定义函数。MaxCompute 提供很多内建函数来满足您的计算需求,同时您还可以通过创建自定义函数来满足不同的计算需求。UDF 在使用上与普通的 内建函数 类似,Java 和 MaxCompute 的数据类型的对应关系,请参见 参数与返回值类型。1、用户编写自定义函数package com.lh.udf;import or...
2019-08-08 11:08:31
388
原创 选择排序【详解】
/** * 选择排序 * * 每一趟从待排序的数据元素中选出最小(或最大)的一个元素, * 顺序放在已排好序的数列的最后,直到全部待排序的数据元素 * 排完。选择排序是不稳定的排序方法 * */public class SelectSort { public static void main(String[] args) { int k = 0;//定义一个变量,用于两数之间...
2019-07-26 11:44:20
148
原创 冒泡排序【详解】
1.冒泡排序时间复杂度为O(n2) 其中最好的时间复杂度为O(n),最差的时间复杂度为O(n2);空间复杂度O(1);属于稳定排序;初始数据基本有序,可用。第一次排序后,最大的数到达数组的末尾。主要理解冒泡的含义,相邻的两个不断的进行比较,冒泡排序最简单,效率最低public class BubbleSort { public static void main(String[] args) ...
2019-07-23 12:09:03
226
原创 hadoop聚合日志配置详解
日志聚合作用:将我们操作的日志文件聚合到一起,通过web界面方便我们查看,并可以设置日志保存时间,可节省空间在网页能够查看map和reduce的任务日志存储在HDFS上的,比较容易读取配置文件:yarn-site.xml<configuration><!--虚拟机名称(Master01),copy时注意修改--><property><n...
2019-07-22 22:48:58
844
原创 Linux系统安装(超详解)
所需要的软件:https://download.csdn.net/download/qq_34543399/10289836 软件地址https://download.csdn.net/download/tan3739/10139206 虚拟光驱下载一、安装虚拟机1、找到以下软件:2、以管理员身份运行此安装软件3、开始安装点击下一步勾选“我接受许可协议中的条...
2019-06-25 23:40:26
4201
原创 Hadoop生态圈之YARN
YARN设计目标通用的统一资源管理系统 同时运行长应用程序和短应用程序长应用程序 通常情况下,永不停止运行 Service(Spark、Storm)、HTTPServer短应用程序 短时间(秒级、分钟级、小时级)内会运行结束的程序 MRjob、Sparkjob等YARN服务组件组件 Client ResourceManager ...
2019-06-24 23:26:17
247
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人