自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (12)
  • 收藏
  • 关注

原创 hdfs元数据实时采集

因Hdfs集群元数据量大,因此即使存储到磁盘上,存储开销依然很大,并且RocksDB为了提高写入和查询性能,会将部分数据放到内存中,因此单条数据越小,对内存和磁盘的开销越小,因此需要找一个在性能和序列化后数据量均较好的序列化方案。主要是借用的zk的节点监控来回调触发各种操作的。consumer端获取到数据后处理,这里获取的是op,op不会带节点的id,里面都是些绝对路径,所以就借用到了之前加载时库中的节点id,通过路径解析出id,然后进行目录的聚合等操作,然后再写会rocksDb,并写出到es。

2023-07-18 21:58:26 1167 1

原创 flink1.16新特性列举

flink1.16新特性

2022-08-29 10:56:29 2538 1

原创 flink1.15 部分新特性解析

​​

2022-05-18 18:08:12 2782

原创 flink中KafkaTopicPartitionState的offset与committedOffset

KafkaTopicPartitionState的变量如下:offset表示已经处理的偏移量,committedOffset表示已经提交的偏移量,按道理来说恒有offset>committedOffset。接下来根据代码执行顺序有如下代码片段:可以看出,每次consumer poll完数据后就会设置新的offset,即调用setOffset。然后我们看每次getOffset会在哪儿调用可以看出,是在ck的snapshotState环节调用的,同时把of.

2021-05-06 19:01:02 1028

原创 FlinkKafkaProducerITCase----FlinkKafkaProducer测试类测试方法总结

1:testRestoreToCheckpointAfterExceedingProducersPool/** * This test ensures that transactions reusing transactional.ids (after returning to the pool) will not clash * with previous transactions using same transactional.ids. */@Testpublic void testR

2021-04-22 18:38:33 306

原创 FlinkKafkaProducer源码解读

1:KafkaProducer发送数据在进行事务控制得时候需要initTransactions、beginTransaction、sender发送数据、commitTransaction。需要抛弃事务时需要调用abortTransaction 其中如果initTransactions注释有如下

2021-04-21 15:26:55 839

原创 .txt文件logstash写入es的无法多次导入

首先我是按照https://elasticsearch.cn/question/1468来写的logstash的conf文件和上面的链接一样,在第二次使用的时候不能导入数据,是sincedb文件缓存的原因执行如下操作问题得以解决...

2018-12-20 11:50:15 681

原创 利用切面编程实现调度任务的时间计算

在工作中使用Scheduled注解实现任务调度现在需要记录调度的开始时间,实际结束时间,如果报错则记录报错信息,并记录报错时间。日志采用springboot自带的logback,配置文件logback-spring.xml如下<?xml version="1.0" encoding="UTF-8" ?><configuration> <...

2018-12-11 15:48:32 301

原创 mysql自连接实现删除问题

 现有如下需求               如图所示:对于同一code-color字段分组下得数据,如果date2等于date1,那么就删除这两条数据,如果有连续得三条这种数据就删除连续得三条。               具体实现思路,先采用自连接处理,这样会有满足条件得数据的id字段,这两条数据的id自连接后分别处于一条数据的两个不同字段中,在对这两个字段用union进行求...

2018-10-17 17:32:32 1720

原创 logstash中fliter进行JDBC与ruby操作

fliter中JDBC操作有两个插件:jdbc_streaming:这个是流式执行的,每来一条数据就会执行一次JDBC操作,具体介绍见官网https://www.elastic.co/guide/en/logstash/current/plugins-filters-jdbc_streaming.html,具体使用如下:input{        stdin{}}filter{  ...

2018-09-03 09:41:10 2393

原创 liunx出现磁盘损坏后可能有用的一些磁盘命令

lvdisplay指令:显示逻辑卷属性             指令讲解:http://linux.51yip.com/search/lvdisplaypvdisplay指令:显示物理卷属性 xfs_repair  -L /home/rhel/home:修复/home的挂载磁盘 mount /home:挂载home...

2018-08-30 16:51:22 598

原创 logstash解析JSON格式的字符串输入

业务需求:输入为JSON字符串,JSON字符串的字段个数不确定,但知道最多可能会有哪些字段,顺序确定的,现在要提取其中的value值并以制表符分割,方便后续存储在HDFS中并便于hive建表:示例输入:{ "cjdid": "DZQ10012","rfidId": 21412341234123410,"passTime": 1530135600,"plateColor": "1",

2018-08-21 10:02:54 1471 2

原创 docker制作logstash镜像,实现kafaka到hdfs

这个镜像制作与上一个(docker制作logstash镜像,实现kafaka到宿机文件)类似,需要修改的地方如下: 1:logstashKafka.conf文件的OUT部分:output {if [type] == "RFID_ORIGIN" {   webhdfs{      host => "10.10.0.109"        #hdfs的namenode地址 ...

2018-08-16 16:30:42 688

原创 docker制作logstash镜像,实现kafaka到宿机文件

1:编辑相关文件cd  /root/dockerFilechmod 777 logstashcd logstashlogstash包括三个文件:Dockerfile,kafkafile1(777权限,数据就是往这个文件写),logstashKafka.conf(logstash的配置文件)Dockerfile文件内容:      FROM logstash:latest ...

2018-08-16 12:15:25 1394

原创 hadoop权威指南中的天气数据的下载方法

2018-03-06 16:39:26 1195

原创 Datanodes available: 0 (0 total, 0 dead)

       相信大家在搭建hadoop之后经常会出现Datanodes available: 0 (0 total, 0 dead)的问题,出现这种问题的原因很多,其他原因网上都有介绍。今天讲一讲本人出现的问题点,出现这个问题后首先查看datanode日志文件发现:WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem conn...

2018-03-02 21:16:00 484

原创 基于反射+注解+迭代+泛型实现的一对多查询方法

主要是加入两个新注解一个Entity注解,加在类的实体属性上 /** * 实体对象属性的注解 */@Target(ElementType.FIELD)@Retention(RetentionPolicy.RUNTIME)public @interface Entity { //表名注解 String table(); //对应的非实体对象属性名 ...

2018-01-06 19:11:18 234

原创 华为机试题 查询

每组输入第一行是两个正整数N和M(0学生ID编号从1编到N。第二行包含N个整数,代表这N个学生的初始成绩,其中第i个数代表ID为i的学生的成绩。接下来有M行。每一行有一个字符C(只取‘Q’或‘U’),和两个正整数A,B。当C为‘Q’的时候,表示这是一条询问操作,它询问ID从A到B(包括A,B)的学生当中,成绩最高的是多少。当C为‘U’的时候,表示这是一条更新操作,要求把ID

2016-09-12 09:47:09 754

原创 厄拉多塞筛算法

自己基于厄拉多塞筛算法写的java代码,复杂度大概为O(N^2)厄拉多塞筛算法是一种用于计算小于N的所有素数的方法。我们从制作整数2到N的表开始。我们找出最小的为被删除的整数i,打印i,然后删除i,2i,3i,……。当i>N1/2时,算法终止。

2016-09-05 19:22:46 556

原创 折半算法

package abc;//先排序,后查找public class ban {private static int[] arr={3,5,54,67,34,78,43,97,23,98,44,89,45};public static void sort(int a[]){for (int i=0;ia[j]){int tem=a[i];a[i]=a[j];a[j]=tem;}}}} public

2016-09-05 09:35:31 256

twincat采用外部设定值实现S型加减速平稳规划

Twincat代码,主要采用外部设定值发生器实现电机的S型加减速平稳规划,即在电机往目标位置运动过程中,上位机指令要求改变目标位置时的速度规划

2019-01-02

电机梯形加减速分析

主要解决的是在电机进行S型运动的时候的变目标位置时的平稳过渡

2019-01-02

logstash镜像

一个logstash镜像,里面包含了在过滤过程中使用jdbc插件过滤数据,以及使用ruby进行高级匹配等操作

2018-12-20

docker容器

Docker容器与容器云(第2版)根据Docker 1.10版和Kubernetes 1.2版对第1版进行了全面更新,从实践者的角度出发,以Docker和Kubernetes为重点,沿着“基本用法介绍”到“核心原理解读”到“高级实践技巧”的思路,一本书讲透当前主流的容器和容器云技术,有助于读者在实际场景中利用Docker容器和容器云解决问题并启发新的思考。全书包括两部分,第一部分深入解读Docker容器技术,包括Docker架构与设计、核心源码解读和高级实践技巧;第二部分归纳和比较了三类基于Docker的主流容器云项目,包括专注Docker容器编排与部署的容器云、专注应用支撑的容器云以及一切皆容器的Kubernetes,进而详细解读了Kubernetes核心源码的设计与实现,最后介绍了几种典型场景下的Kubernetes最佳实践。

2018-08-16

Spark快速大数据分析

2009年加州大学伯克利分校AMPlab 创立spark大数据处理和计算框架。不同于传统数据处理框架,spark基于内存的基本类型,为一些应用程序带来了100倍的性能提升。spark允许允许应用将数据加载到集群内存中反复查询,非擦汗那个适合于大数据处理和机器学习

2018-04-13

HBase二级索引实现方案

本方案主要参照了华为公布的HBase二级索引实现方案。为每个DataTable创建一个与之对应的IndexTable,通过各种途径,保证IndexTable Region与DataTable Region一一对应,并且存储在同一个RegionServer上。

2018-04-12

Hadoop硬实战

Hadoop是一个开源的MapReduce平台,设计运行在大型分布式集群环境中,提供查询和分析服务。尤其适用于大数据系统,Hadoop为苹果、eBay、LinkedIn、雅虎和Facebook等公司提供重要软件环境。它为开发者进行数据存储、管理以及分析提供便利的方法。 《Hadoop硬实战》收集了85个问题场景以及解决方案的实战演练。在关键问题领域对基础概念和实战方法做了权衡,例如导入导出、序列化,以及LZO压缩。你将会学习到每个技术的细节,以及当遇到一个具体问题时能够给出对应的解决方案。本书提供了结构良好且易于理解的例子,可用于应对你所遇到的问题。

2018-04-12

史上最全Java面试大全

简答题 22 1.面向对象的特征有哪些方面 22 2.String是最基本的数据类型吗? 23 3.抽象方法 24 4.jsp注释 24 5.JSP和Servlet有哪些相同点和不同点,他们之间的联系是什么? 24 6.如何用css约束一个层不可见? 24 7.说出数据连接池的工作机制是什么 24 8. 多线程有几种实现方法,都是什么?同步有几种实现方法,都是什么? 25 9.一个页面在打开时,需要处理一些事情(比如弹出一个广告页),需要定义窗口的什么事件? 25 10. 描述forward 和redirect的区别 25 11.垃圾回收器的基本原理是什么?垃圾回收器可以马上回收内存吗?有什么办法主动通知虚拟机进行垃圾回收 26 12 EJB的优点有哪些? 26 13在Servlet处理请求的方式为 27 14如何利用ServletContext和ServletConfig对象获得初始化参数 27 15说出Servlet的生命周期,并说出Servlet和CGI的区别 27 16.访问修饰符public,private,protected,以及不写(默认)时的区别? 27 17. Math.round(11.5) 等于多少? Math.round(-11.5)等于多少? 27 18、float f=3.4;是否正确? 28 19、 int和Integer有什么区别? 28 20. 请解释&和&&、|和||的区别? 29 21. 解释内存中的栈(stack)、堆(heap)和静态区(static area)的用法。 29 22.swtich 是否能作用在byte 上,是否能作用在long 上,是否能作用在String上? 31

2018-04-09

Hive编程指南

《Hive编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。《Hive编程指南》通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,最终演示Hive如何在Hadoop生态系统进行工作。

2018-04-09

HBase权威指南

《HBase权威指南》由乔治(Lars George)著,探讨了 如何通过使用与HBase高度集成的Hadoop将 HBase的可 伸缩性变得简单;把大型数据集分布到相对廉价的商 业服务器集群中;使用本地Java客户端,或者通过提 供了REST、Avro和Thrift应用编程接口的网关服务器 来访问HBase;了解HBase架构的细节,包括存储格式 、预写日志、后台进程等;在HBase中集成MapReduce 框架;了解如何调节集群、设计模式、拷贝表、导入 批量数据和删除节点等。

2018-04-08

数据仓库与数据挖掘

本书较系统地介绍了数据仓库产生的背景及其技术、方法的理论和应用。主要内容包括:数据仓库的相关术语及框架体系结构;数据仓库设计与元数据研究;异构数据智能整合与建模;联机分析处理与联机分析挖掘;数据挖掘与数据库中知识发现;基于神经网络的数据挖掘模型的应用研究;预测模型与应用;基于GMDH原理的自组织数据挖掘模型研究;快速发现关联规则的模型及应用;粗熵的关联规则挖掘方法及其在肇事逃逸侦破中的应用;模糊层次分析法等。

2018-04-08

基于注解反射封装的BaseDao(支持一对多查询)

能够实现一对多查询的basedao实现

2018-01-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除