苏世不醒-CSDN博客

自定义SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的source类型已经很多，但是有时候并不能满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些source。根据官方说明自定义MySource需要继承AbstractSource类并实现

2020-08-28 21:26:25 445

原创 Hive经典案例之蚂蚁森林（二）

需求2、蚂蚁森林低碳用户排名分析问题：查询user_low_carbon表中每日流水记录，条件为：用户在2017年，连续三天（或以上）的天数里，每天减少碳排放（low_carbon）都超过100g的用户低碳流水。需要查询返回满足以上条件的user_low_carbon表中的记录流水。例如用户u_002符合条件的记录如下，因为2017/1/2~2017/1/5连续四天的碳排放量之和都大于等于100g：分析：首先根据用户和天数进行分组，过滤掉总能量小于100的用户。接下来就是比较难理解的一点，就

2020-08-27 22:09:06 1463

原创 Flume入门案例（三个简单的小案例）

案例一：使用Flume监听一个端口，收集该端口数据，并打印到控制台。（1）安装netcat工具[@hadoop102 software]$ sudo yum install -y nc（2）判断44444端口是否被占用[@hadoop102 flume-telnet]$ sudo netstat -tunlp | grep 44444（3）创建Flume Agent配置文件netcat-flume-logger.conf在flume目录下创建job文件夹并进入job文件夹。[@hadoop

2020-08-26 23:44:15 540

原创 Hive经典案例之蚂蚁森林(一)

Hive经典案例之蚂蚁森林以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。table_name：user_low_carbonuser_id data_dt low_carbon用户日期减少碳排放（g）蚂蚁森林植物换购表，用于记录申领环保植物所需要减少的碳排放量table_name: plant_carbonplant_id plant_name low_carbon植物编号植物名换购植物所需要的碳表数据：

2020-08-25 20:31:52 2789

原创 JDBC那些事

一JDBC概述Java提供的一套用来操作数据的接口二如何获取数据库的连接1.获取数据库连接的必要条件/* ①数据必须是正常的在运行。 ②数据库的账号和密码必须正确 ③提供正确的驱动程序*/2.方式一：Driver //多态：创建驱动程序的对象Driver driver = new com.mysql.jdbc.Driver();//获取mysql连接对象Properties info = new Properties();info.setProperty("user","roo

2020-08-23 11:14:04 103

bigdataJ的博客

原创简简单单kafka（一）

原创 Flume中自定义Source和自定义Sink

原创 Hive经典案例之蚂蚁森林（二）

原创 Flume入门案例（三个简单的小案例）

原创 Hive经典案例之蚂蚁森林(一)

原创 JDBC那些事

空空如也

空空如也

原创 简简单单kafka（一）

原创 Flume中自定义Source和自定义Sink

原创 Hive经典案例之蚂蚁森林（二）

原创 Flume入门案例（三个简单的小案例）

原创 Hive经典案例之蚂蚁森林(一)

原创 JDBC那些事

空空如也

空空如也

原创简简单单kafka（一）