• 博客(71)
  • 收藏
  • 关注

原创 拉链表的原理及简单实现

拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。

2023-06-29 14:56:43 420

原创 Flume简述

flume就是集(source+channel+sink)的一个日志数据采集工具

2023-06-29 14:53:32 296

原创 Kafka优化

Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

2023-06-29 14:44:54 247

原创 浅谈安全测试之AppScan

Appscan还有很多安全测试策略,可供各种安全扫描,总体来说,还是很强大的,感兴趣的小伙伴可进行深层次挖掘,互相学习,共同促进!

2023-05-24 16:59:35 1355

原创 异地组网——ZeroTier

ZeroTier 是一款简单易用的内网穿透工具

2023-05-24 16:58:42 2003

原创 Netty简介及ByteBuf组件原理

Netty简介及ByteBuf组件原理

2023-05-24 16:54:50 195

原创 零拷贝浅析

零拷贝(Zero-copy;也被称为零复制)技术是指计算机执行操作时,CPU不需要先将数据从某处内存复制到另一个特定区域。这种技术通常用于通过网络传输文件时节省CPU周期和内存带宽。

2023-04-17 11:28:22 184

原创 深入浅出的实践大数据DAG图

当前节点是否有上级节点,没有就是顶点节点,顶点直接运行;有上级节点,上级节点是否有运行结果,所有上级节点都有运行结果就运行当前节点;X6分为画布(Graph)、基类(cell)、节点(node)、边(edge)、连接桩(port)等元素,以及图的相关操作(如交互监听、元素操作、渲染等),因此只需要掌握画布、节点、边的增删改查,使用x6就轻松加愉快了。学过计算机网络的知道计算机网络中有一个拓扑结构,要实现 DAG图多顶点的拓扑序列执行任务的功能,可以使用拓扑排序算法,拓扑排序算法的时间复杂度为O(n+e)。

2023-04-17 10:52:27 1923 1

原创 大数据基础知识

大数据基础知识

2023-04-17 10:41:52 440

原创 Hadoop之HDFS简介

与其他的一些分布式文件管理系统不同的是,HDFS的设计之初是为了构建 Apache Nutch 网络搜索引擎项目的基础设施,旨在用低成本的硬件构建出支持高吞吐量的文件系统。高容错性:一个HDFS集群可能会包含非常多节点,HDFS将文件分块(Block)存储,并且会自动保存多个副本到不同的机器节点上以保证数据的安全,而且HDFS可以检测故障并且从故障中快速恢复。高吞吐率:与一般文件系统的访问低延迟不同,HDFS的重点是处理大量的数据,支持数据处理规模是GB、TB、甚至是PB的级别。

2023-03-22 18:50:33 1567

原创 Docker入门及常用方法介绍

Docker 是一个用于开发、发布和运行应用程序的开放平台。

2023-03-22 17:35:57 247

原创 Apache Kafka 入门介绍

Kafka 是一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。

2023-03-22 17:21:50 302

原创 启发式算法之灰狼优化算法

灰狼优化算法(Grey Wolf Optimizer,GWO)是由自然界中灰狼群体的社会等级机制和捕猎行为而衍生出来的一种群体优化智能算法,目前已成功运用到车间调度、参数优化、图像分类等领域中。

2023-03-22 16:53:01 3910

原创 Prometheus

Prometheus主要用于提供近实时的、基于动态云环境和容器的微服务、服务和应用程序的内省监控,数据存储时将其书籍的指标存储为时间序列数据,即指标信息、记录时的时间戳和标签的键值对一起存储。

2023-03-22 16:35:34 1469

原创 现代藏宝图分割法则 — 纠删码

纠删码(Erasure Code,也叫擦除码)是一种编码容错技术。最早用于通信行业,数据传输中的数据恢复。它通过对数据进行分块,然后计算出校验数据,使得各个部分的数据产生关联性。当一部分数据块丢失时,可以通过剩余的数据块和校验块计算出丢失的数据块。

2023-03-22 16:32:15 255

原创 Flink之数据乱序处理

理想情况下,数据都是严格有序的,但现实中的数据往往都存在乱序的情况。

2023-03-14 17:37:00 3104

原创 UI自动化测试

UI自动化是一个运用非常广泛的技术,想要深入精通是需要我们不断地积累,沉淀的,这样才能解决一个又一个的难题,从而使我们的项目质量更上一个台阶。

2023-03-13 10:54:58 1341

原创 HBase 串行复制

HBase 提供了一种集群复制机制,允许您使用源集群的预写日志 (WAL) 来传播更改,从而使一个集群的状态与另一个集群的状态保持同步。集群复制的一些用例包括:备份和灾难恢复数据聚合地理数据分布在线数据摄取与离线数据分析相结合一、串行复制注意:此功能在 HBase 2.1 中引入串行复制支持按照日志到达源集群的顺序将日志推送到目标集群,在 HBase 的复制中,我们通过读取每个区域服务器中的 WAL 将突变推送到目标集群。我们有一个 WAL 文件队列,因此我们可以按照创建时间的顺序读取它们。

2023-03-13 10:37:02 266

原创 Kubernetes 简介及其调度原理

Kubernetes(k8s)是一个全新的基于容器技术的分布式架构领先方案。在Docker技术的基础上,为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列完整功能,提高了大规模容器集群管理的便捷性。

2022-12-02 16:50:02 417

原创 代码覆盖率最佳实践

代码覆盖(Code coverage)是软件测试中的一种度量,描述源代码被测试的比例和程度,所得比例称为代码覆盖率。

2022-12-02 16:34:15 1069

原创 联邦学习

“联邦学习(Federated Learning)”作为一种加密的分布式机器学习范式,可以使得各方在不披露原始数据的情况下达到共建模型的目的,即在不违反数据隐私保护法规的前提下,连接数据孤岛,建立性能卓越的共有模型。

2022-12-02 16:30:17 4927

原创 CDC工具之Debezium

Debezium是一组分布式服务,用于捕获数据库中的更改,以便您的应用程序可以看到这些更改并做出响应。

2022-11-30 18:24:12 6810

原创 浅谈数据仓库工具——Hive

Hadoop分布式文件系统(HDFS)因其高容错性、高吞吐量的特点,且适合部署在廉价的机器上,使其非常适合大批量数据的存储,但是如何快速地对HDFS上的文件进行统计分析操作呢?最初是靠写MapReduce编程进行分析,但是MR十分繁琐,而且对不熟悉Java的编程人员十分不友好。另外数据存储HDFS上是没有schema的概念的,这样就不能够使用SQL进行处理。在这种背景下,Hive产生了。Hive可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。

2022-11-30 17:58:22 2601

原创 Flink CDC

CDC是Change Data Capture变更数据获取的简称。核心思想就是检测捕获数据库的变动(包括数据或数据表的插入,更新以及删除等),将这些变更按发生的顺序完成记录下来,写入消息中间件中提供给其他的消费者。

2022-11-24 14:23:08 1201

原创 Elasticsearch简介以及索引原理

Elasticsearch是一个实时的分布式搜索分析引擎,它可以使你以前所未有的速度和规模去探索你的数据。

2022-11-17 14:26:18 637

原创 浅谈Spark分布式计算

Spark本身是一个非常庞大的架构,它衍生出了很多框架,每个框架都有不同的设计理念,都值得我们去学习,学无止境,让我们一起学好基础,努力提高自己吧。

2022-09-24 20:31:25 1943 1

原创 CDC工具之Canal

CDC 的全称是 Change Data Capture ,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。我们通常所描述的CDC 技术主要是指面向数据库的变更,是一种用于捕获数据库中数据变更的技术。

2022-09-24 20:18:37 3567

原创 ClickHouse为什么这么快

ClickHouse作为一款开源列式数据库管理系统(DBMS)主要用于数据分析(OLAP)领域。

2022-09-24 20:06:54 1334

原创 Spark RDD分区数与分区器源码解析

现如今Spark已经得到了几乎所有大数据企业的认可,而这些企业也迅速将自己的产品与Spark进行了紧密地集成。所以,作为现在最热门的几大分布式大数据计算引擎之一,Spark几乎是大数据工程师的必修课,而RDD作为Spark框架的灵魂所在,也是我们所必须熟悉并掌握的。

2022-09-24 19:44:43 1215

原创 知识图谱与古希腊人物关系

知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。

2022-09-24 18:31:37 1466

原创 Flink架构与应用漫聊

Flink是一个流式数据分布式处理引擎,具有高吞吐、低延迟的显著特性。

2022-09-24 17:36:37 743

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除