- 博客(20)
- 资源 (12)
- 收藏
- 关注
原创 hdfs元数据实时采集
因Hdfs集群元数据量大,因此即使存储到磁盘上,存储开销依然很大,并且RocksDB为了提高写入和查询性能,会将部分数据放到内存中,因此单条数据越小,对内存和磁盘的开销越小,因此需要找一个在性能和序列化后数据量均较好的序列化方案。主要是借用的zk的节点监控来回调触发各种操作的。consumer端获取到数据后处理,这里获取的是op,op不会带节点的id,里面都是些绝对路径,所以就借用到了之前加载时库中的节点id,通过路径解析出id,然后进行目录的聚合等操作,然后再写会rocksDb,并写出到es。
2023-07-18 21:58:26 1315 1
原创 flink中KafkaTopicPartitionState的offset与committedOffset
KafkaTopicPartitionState的变量如下:offset表示已经处理的偏移量,committedOffset表示已经提交的偏移量,按道理来说恒有offset>committedOffset。接下来根据代码执行顺序有如下代码片段:可以看出,每次consumer poll完数据后就会设置新的offset,即调用setOffset。然后我们看每次getOffset会在哪儿调用可以看出,是在ck的snapshotState环节调用的,同时把of.
2021-05-06 19:01:02 1070
原创 FlinkKafkaProducerITCase----FlinkKafkaProducer测试类测试方法总结
1:testRestoreToCheckpointAfterExceedingProducersPool/** * This test ensures that transactions reusing transactional.ids (after returning to the pool) will not clash * with previous transactions using same transactional.ids. */@Testpublic void testR
2021-04-22 18:38:33 349
原创 FlinkKafkaProducer源码解读
1:KafkaProducer发送数据在进行事务控制得时候需要initTransactions、beginTransaction、sender发送数据、commitTransaction。需要抛弃事务时需要调用abortTransaction 其中如果initTransactions注释有如下
2021-04-21 15:26:55 886
原创 .txt文件logstash写入es的无法多次导入
首先我是按照https://elasticsearch.cn/question/1468来写的logstash的conf文件和上面的链接一样,在第二次使用的时候不能导入数据,是sincedb文件缓存的原因执行如下操作问题得以解决...
2018-12-20 11:50:15 723
原创 利用切面编程实现调度任务的时间计算
在工作中使用Scheduled注解实现任务调度现在需要记录调度的开始时间,实际结束时间,如果报错则记录报错信息,并记录报错时间。日志采用springboot自带的logback,配置文件logback-spring.xml如下<?xml version="1.0" encoding="UTF-8" ?><configuration> <...
2018-12-11 15:48:32 319
原创 mysql自连接实现删除问题
现有如下需求 如图所示:对于同一code-color字段分组下得数据,如果date2等于date1,那么就删除这两条数据,如果有连续得三条这种数据就删除连续得三条。 具体实现思路,先采用自连接处理,这样会有满足条件得数据的id字段,这两条数据的id自连接后分别处于一条数据的两个不同字段中,在对这两个字段用union进行求...
2018-10-17 17:32:32 1764
原创 logstash中fliter进行JDBC与ruby操作
fliter中JDBC操作有两个插件:jdbc_streaming:这个是流式执行的,每来一条数据就会执行一次JDBC操作,具体介绍见官网https://www.elastic.co/guide/en/logstash/current/plugins-filters-jdbc_streaming.html,具体使用如下:input{ stdin{}}filter{ ...
2018-09-03 09:41:10 2446
原创 liunx出现磁盘损坏后可能有用的一些磁盘命令
lvdisplay指令:显示逻辑卷属性 指令讲解:http://linux.51yip.com/search/lvdisplaypvdisplay指令:显示物理卷属性 xfs_repair -L /home/rhel/home:修复/home的挂载磁盘 mount /home:挂载home...
2018-08-30 16:51:22 616
原创 logstash解析JSON格式的字符串输入
业务需求:输入为JSON字符串,JSON字符串的字段个数不确定,但知道最多可能会有哪些字段,顺序确定的,现在要提取其中的value值并以制表符分割,方便后续存储在HDFS中并便于hive建表:示例输入:{ "cjdid": "DZQ10012","rfidId": 21412341234123410,"passTime": 1530135600,"plateColor": "1",
2018-08-21 10:02:54 1522 2
原创 docker制作logstash镜像,实现kafaka到hdfs
这个镜像制作与上一个(docker制作logstash镜像,实现kafaka到宿机文件)类似,需要修改的地方如下: 1:logstashKafka.conf文件的OUT部分:output {if [type] == "RFID_ORIGIN" { webhdfs{ host => "10.10.0.109" #hdfs的namenode地址 ...
2018-08-16 16:30:42 731
原创 docker制作logstash镜像,实现kafaka到宿机文件
1:编辑相关文件cd /root/dockerFilechmod 777 logstashcd logstashlogstash包括三个文件:Dockerfile,kafkafile1(777权限,数据就是往这个文件写),logstashKafka.conf(logstash的配置文件)Dockerfile文件内容: FROM logstash:latest ...
2018-08-16 12:15:25 1434
原创 Datanodes available: 0 (0 total, 0 dead)
相信大家在搭建hadoop之后经常会出现Datanodes available: 0 (0 total, 0 dead)的问题,出现这种问题的原因很多,其他原因网上都有介绍。今天讲一讲本人出现的问题点,出现这个问题后首先查看datanode日志文件发现:WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem conn...
2018-03-02 21:16:00 541
原创 基于反射+注解+迭代+泛型实现的一对多查询方法
主要是加入两个新注解一个Entity注解,加在类的实体属性上 /** * 实体对象属性的注解 */@Target(ElementType.FIELD)@Retention(RetentionPolicy.RUNTIME)public @interface Entity { //表名注解 String table(); //对应的非实体对象属性名 ...
2018-01-06 19:11:18 253
原创 华为机试题 查询
每组输入第一行是两个正整数N和M(0学生ID编号从1编到N。第二行包含N个整数,代表这N个学生的初始成绩,其中第i个数代表ID为i的学生的成绩。接下来有M行。每一行有一个字符C(只取‘Q’或‘U’),和两个正整数A,B。当C为‘Q’的时候,表示这是一条询问操作,它询问ID从A到B(包括A,B)的学生当中,成绩最高的是多少。当C为‘U’的时候,表示这是一条更新操作,要求把ID
2016-09-12 09:47:09 821
原创 厄拉多塞筛算法
自己基于厄拉多塞筛算法写的java代码,复杂度大概为O(N^2)厄拉多塞筛算法是一种用于计算小于N的所有素数的方法。我们从制作整数2到N的表开始。我们找出最小的为被删除的整数i,打印i,然后删除i,2i,3i,……。当i>N1/2时,算法终止。
2016-09-05 19:22:46 597
原创 折半算法
package abc;//先排序,后查找public class ban {private static int[] arr={3,5,54,67,34,78,43,97,23,98,44,89,45};public static void sort(int a[]){for (int i=0;ia[j]){int tem=a[i];a[i]=a[j];a[j]=tem;}}}} public
2016-09-05 09:35:31 278
twincat采用外部设定值实现S型加减速平稳规划
2019-01-02
docker容器
2018-08-16
Spark快速大数据分析
2018-04-13
HBase二级索引实现方案
2018-04-12
Hadoop硬实战
2018-04-12
史上最全Java面试大全
2018-04-09
Hive编程指南
2018-04-09
HBase权威指南
2018-04-08
数据仓库与数据挖掘
2018-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人