Oo。°ºO-CSDN博客

原创 kafka一个服务配置到不同topic的不同group

标题比较长，实在想不出什么好的描述。大概要解决的问题就是，同一个服务同时监听多个topic，且在每个topic中的group都不相同，具体看问题描述吧。一、问题背景前几天部署了一套系统，每个服务都搭建了多个节点，而且是没有主从关系的节点。每个服务中有很多东西是放到缓存中的，配置多节点之后，相同服务的不同节点出现了缓存不一致的问题。二、问题描述刚开始想出一种解决方案，监听同一个top...

2019-02-28 15:50:34 6420

原创 kafka动态配置topic

之前使用@org.springframework.kafka.annotation.KafkaListener这个注解的时候，是在yml文件中配置，然后使用@KafkaListener(topics = {"${kafka.topic.a2b.name}"})，这样去单独监听某一个topic，生产者也固定在代码里定义变量读取配置文件。昨天改了个需求，希望以后通过配置文件去动态配置生产者和消费者的...

2019-01-11 14:18:43 16991 14

原创 Kafka及Spring&Kafka整合

由于某项目的消息队列使用了Spring整合Kafka，开发中我需要使用kafka客户端模拟生产者和消费者。简单了解了一下Kafka，扫盲贴，先标记一下，日后再深入学习。一、Kafka简介1.1 简介 kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个...

2018-09-13 18:52:07 5254 1

原创 shell中获取hdfs文件路径参数

算是个简单的工具吧。需求是这样的，有套脚本是不定期跑的累积表，所以需要知道上次跑到了哪天。累积表有个day_id分区，所以直接看表分区是最后的day_id就行。不多比比直接上代码#!/bin/bashhdfs_path=$1#获取hdfs最后一个时间分区时间参数脚本#注意分区在第几层改第二个print的参数last_data_date=`hadoop fs -ls $hdfs_p...

2019-03-28 15:16:33 1389

原创 hive日常使用的几个小技巧（长期维护中...）

长期维护中。。。。主要记录日常使用hive中会用到的小技巧1.简单查询不跑MapReduce 如果你想直接查询（select * from table），却不想执行MapReduce，可以使用FetchTask，FetchTask不同于MapReduce任务，它不会启动mapreduce，而是直接读取文件，输出结果。<property> <name>hive....

2019-03-27 12:06:45 610

原创 hive开发udaf和udtf

之前开发过udf，但是udf只能处理一对一的情况，也就是一个输入对应一个输出。而日常开发中却会遇到多种情况，普通的udf不能满足，这时候就需要引入udtf和udaf了。一、简介1.1 UDAF UDAF(User- Defined Aggregation Funcation)用户定义聚合函数，可对多行数据产生作用；等同与SQL中常用的SUM()，AVG()，也是聚合函数；简单说就是多行...

2019-03-27 11:10:41 400

原创 hadoop删库跑路？

emmmm…昨天hadoop删库了。当时很慌，想半天好像记起来hadoop有个类似于回收站的东西，找了一下果然有，记录下，下次删库不要急着跑路。一、“回收站”hadoop有个类似于回收站的机制，通常我们删除hdfs文件时hadoop fs -rm -r olicity/tableName执行命令后，并非将文件直接删除，而是将文件移动到设置的".Trash"目录下。二、配置“回收站”...

2019-01-04 16:54:15 196

原创 log4j与hadoop的简单结合

最近使用了一种数据存储的方法，就是使用log4j的logback将数据进行保存，然后将数据上传到hive表中，进行相关的数据分析操作。一、配置说明不多比比，感谢大佬。logback的使用和logback.xml详解。这篇博客写的比较详细，关于logbak的相关配置文件说明。二、提取需要的信息先在业务逻辑层中提取关键信息。这里我是简单定义一个字符串数组，将信息保存。如果有别的需求，可...

2018-12-25 18:36:26 1224

原创 crontab使用时间参数

最近写了一个脚本，需要定时执行，决定使用Crontab。一、问题描述由于脚本需要传入时间参数，传入时间时发生了不能执行的问题，如下。刚开始写的调用脚本为20 0 * * * source ~/.bash_profile;cd */shell;sh count.sh $(date +%Y%m%d)> count.log 2>&1定时执行不能执行，查看系统日志后，...

2018-12-25 17:01:16 8976 1

原创 hive开发UDF及使用

最近有个数据挖掘的需求，要求统计所给经纬度附近n公里某些事物的数量。涉及到地球两点间的距离计算，需要写UDF进行计算。一、UDF编写根据经纬度计算两点间的距离，网上有很多计算方法，试了几个，发现这篇博客的方法计算的精度差比较小，他的分析方法也很详细，最终采用此方法。import com.ai.hive.udf.topdomain.StringUtil;import org.apach...

2018-10-26 12:02:07 1342 1

原创 URLEncode和URLDecoder

一、背景使用http请求的在服务之间传递消息时，会出现字符串乱码现象。使用POST方法提交时，会对其中的有些字符进行编码,数据内容的类型是 application/x-www-form-urlencoded1.字符"a"-"z"，"A"-"Z"，"0"-"9"，"."，"-"，"*"，和"_" 都不

2018-10-17 17:59:19 362

原创关于hadoop3.0

总算是有点时间了，捣鼓一下hadoop3.0的一些东西，听说3.0比spark快十倍？一、安装配置前面的环境配置与解压安装大体一致。配置文件的异同如下：1.集群节点配置文件 3.0以前都是通过安装目录/etc/hadoop/slaves 进行配置，3.0则是在同一目录下的workers配置，改个名?具体的配置方式与之前一样，每行一个节点名。2.hadoop-env.sh ...

2018-10-12 17:12:55 204

weixin_43157082的博客