自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 kafka一个服务配置到不同topic的不同group

 标题比较长,实在想不出什么好的描述。大概要解决的问题就是,同一个服务同时监听多个topic,且在每个topic中的group都不相同,具体看问题描述吧。一、问题背景 前几天部署了一套系统,每个服务都搭建了多个节点,而且是没有主从关系的节点。每个服务中有很多东西是放到缓存中的,配置多节点之后,相同服务的不同节点出现了缓存不一致的问题。二、问题描述 刚开始想出一种解决方案,监听同一个top...

2019-02-28 15:50:34 6342

原创 kafka动态配置topic

 之前使用@org.springframework.kafka.annotation.KafkaListener这个注解的时候,是在yml文件中配置,然后使用@KafkaListener(topics = {"${kafka.topic.a2b.name}"}),这样去单独监听某一个topic,生产者也固定在代码里定义变量读取配置文件。昨天改了个需求,希望以后通过配置文件去动态配置生产者和消费者的...

2019-01-11 14:18:43 16581 14

原创 Kafka及Spring&Kafka整合

 由于某项目的消息队列使用了Spring整合Kafka,开发中我需要使用kafka客户端模拟生产者和消费者。简单了解了一下Kafka,扫盲贴,先标记一下,日后再深入学习。 一、Kafka简介1.1 简介  kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个...

2018-09-13 18:52:07 5185 1

原创 shell中获取hdfs文件路径参数

 算是个简单的工具吧。需求是这样的,有套脚本是不定期跑的累积表,所以需要知道上次跑到了哪天。累积表有个day_id分区,所以直接看表分区是最后的day_id就行。不多比比直接上代码#!/bin/bashhdfs_path=$1#获取hdfs最后一个时间分区时间参数脚本#注意分区在第几层改第二个print的参数last_data_date=`hadoop fs -ls $hdfs_p...

2019-03-28 15:16:33 1367

原创 hive日常使用的几个小技巧(长期维护中...)

 长期维护中。。。。主要记录日常使用hive中会用到的小技巧1.简单查询不跑MapReduce 如果你想直接查询(select * from table),却不想执行MapReduce,可以使用FetchTask,FetchTask不同于MapReduce任务,它不会启动mapreduce,而是直接读取文件,输出结果。<property> <name>hive....

2019-03-27 12:06:45 599

原创 hive开发udaf和udtf

 之前开发过udf,但是udf只能处理一对一的情况,也就是一个输入对应一个输出。而日常开发中却会遇到多种情况,普通的udf不能满足,这时候就需要引入udtf和udaf了。一、简介1.1 UDAF UDAF(User- Defined Aggregation Funcation)用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数;简单说就是多行...

2019-03-27 11:10:41 366

原创 hadoop删库跑路?

 emmmm…昨天hadoop删库了。当时很慌,想半天好像记起来hadoop有个类似于回收站的东西,找了一下果然有,记录下,下次删库不要急着跑路。一、“回收站”hadoop有个类似于回收站的机制,通常我们删除hdfs文件时hadoop fs -rm -r olicity/tableName执行命令后,并非将文件直接删除,而是将文件移动到设置的".Trash"目录下。二、配置“回收站”...

2019-01-04 16:54:15 188

原创 log4j与hadoop的简单结合

 最近使用了一种数据存储的方法,就是使用log4j的logback将数据进行保存,然后将数据上传到hive表中,进行相关的数据分析操作。一、配置说明 不多比比,感谢大佬。logback的使用和logback.xml详解。这篇博客写的比较详细,关于logbak的相关配置文件说明。二、提取需要的信息先在业务逻辑层中提取关键信息。这里我是简单定义一个字符串数组,将信息保存。如果有别的需求,可...

2018-12-25 18:36:26 1184

原创 crontab使用时间参数

 最近写了一个脚本,需要定时执行,决定使用Crontab。一、问题描述 由于脚本需要传入时间参数,传入时间时发生了不能执行的问题,如下。刚开始写的调用脚本为20 0 * * * source ~/.bash_profile;cd */shell;sh count.sh $(date +%Y%m%d)&gt; count.log 2&gt;&amp;1定时执行不能执行,查看系统日志后,...

2018-12-25 17:01:16 8895 1

原创 hive开发UDF及使用

 最近有个数据挖掘的需求,要求统计所给经纬度附近n公里某些事物的数量。涉及到地球两点间的距离计算,需要写UDF进行计算。一、UDF编写 根据经纬度计算两点间的距离,网上有很多计算方法,试了几个,发现这篇博客的方法计算的精度差比较小,他的分析方法也很详细,最终采用此方法。import com.ai.hive.udf.topdomain.StringUtil;import org.apach...

2018-10-26 12:02:07 1286 1

原创 URLEncode和URLDecoder

一、背景 使用http请求的在服务之间传递消息时,会出现字符串乱码现象。 使用POST方法提交时,会对其中的有些字符进行编码,数据内容的类型是 application/x-www-form-urlencoded1.字符"a"-"z","A"-"Z","0"-"9",".","-","*",和"_" 都不

2018-10-17 17:59:19 350

原创 关于hadoop3.0

 总算是有点时间了,捣鼓一下hadoop3.0的一些东西,听说3.0比spark快十倍?一、安装配置 前面的环境配置与解压安装大体一致。配置文件的异同如下:1.集群节点配置文件 3.0以前都是通过 安装目录/etc/hadoop/slaves 进行配置,3.0则是在同一目录下的workers配置,改个名?具体的配置方式与之前一样,每行一个节点名。2.hadoop-env.sh ...

2018-10-12 17:12:55 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除