- 博客(71)
- 收藏
- 关注
原创 拉链表的原理及简单实现
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。
2023-06-29 14:56:43
420
原创 Kafka优化
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。
2023-06-29 14:44:54
247
原创 浅谈安全测试之AppScan
Appscan还有很多安全测试策略,可供各种安全扫描,总体来说,还是很强大的,感兴趣的小伙伴可进行深层次挖掘,互相学习,共同促进!
2023-05-24 16:59:35
1355
原创 零拷贝浅析
零拷贝(Zero-copy;也被称为零复制)技术是指计算机执行操作时,CPU不需要先将数据从某处内存复制到另一个特定区域。这种技术通常用于通过网络传输文件时节省CPU周期和内存带宽。
2023-04-17 11:28:22
184
原创 深入浅出的实践大数据DAG图
当前节点是否有上级节点,没有就是顶点节点,顶点直接运行;有上级节点,上级节点是否有运行结果,所有上级节点都有运行结果就运行当前节点;X6分为画布(Graph)、基类(cell)、节点(node)、边(edge)、连接桩(port)等元素,以及图的相关操作(如交互监听、元素操作、渲染等),因此只需要掌握画布、节点、边的增删改查,使用x6就轻松加愉快了。学过计算机网络的知道计算机网络中有一个拓扑结构,要实现 DAG图多顶点的拓扑序列执行任务的功能,可以使用拓扑排序算法,拓扑排序算法的时间复杂度为O(n+e)。
2023-04-17 10:52:27
1923
1
原创 Hadoop之HDFS简介
与其他的一些分布式文件管理系统不同的是,HDFS的设计之初是为了构建 Apache Nutch 网络搜索引擎项目的基础设施,旨在用低成本的硬件构建出支持高吞吐量的文件系统。高容错性:一个HDFS集群可能会包含非常多节点,HDFS将文件分块(Block)存储,并且会自动保存多个副本到不同的机器节点上以保证数据的安全,而且HDFS可以检测故障并且从故障中快速恢复。高吞吐率:与一般文件系统的访问低延迟不同,HDFS的重点是处理大量的数据,支持数据处理规模是GB、TB、甚至是PB的级别。
2023-03-22 18:50:33
1567
原创 Apache Kafka 入门介绍
Kafka 是一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。
2023-03-22 17:21:50
302
原创 启发式算法之灰狼优化算法
灰狼优化算法(Grey Wolf Optimizer,GWO)是由自然界中灰狼群体的社会等级机制和捕猎行为而衍生出来的一种群体优化智能算法,目前已成功运用到车间调度、参数优化、图像分类等领域中。
2023-03-22 16:53:01
3910
原创 Prometheus
Prometheus主要用于提供近实时的、基于动态云环境和容器的微服务、服务和应用程序的内省监控,数据存储时将其书籍的指标存储为时间序列数据,即指标信息、记录时的时间戳和标签的键值对一起存储。
2023-03-22 16:35:34
1469
原创 现代藏宝图分割法则 — 纠删码
纠删码(Erasure Code,也叫擦除码)是一种编码容错技术。最早用于通信行业,数据传输中的数据恢复。它通过对数据进行分块,然后计算出校验数据,使得各个部分的数据产生关联性。当一部分数据块丢失时,可以通过剩余的数据块和校验块计算出丢失的数据块。
2023-03-22 16:32:15
255
原创 UI自动化测试
UI自动化是一个运用非常广泛的技术,想要深入精通是需要我们不断地积累,沉淀的,这样才能解决一个又一个的难题,从而使我们的项目质量更上一个台阶。
2023-03-13 10:54:58
1341
原创 HBase 串行复制
HBase 提供了一种集群复制机制,允许您使用源集群的预写日志 (WAL) 来传播更改,从而使一个集群的状态与另一个集群的状态保持同步。集群复制的一些用例包括:备份和灾难恢复数据聚合地理数据分布在线数据摄取与离线数据分析相结合一、串行复制注意:此功能在 HBase 2.1 中引入串行复制支持按照日志到达源集群的顺序将日志推送到目标集群,在 HBase 的复制中,我们通过读取每个区域服务器中的 WAL 将突变推送到目标集群。我们有一个 WAL 文件队列,因此我们可以按照创建时间的顺序读取它们。
2023-03-13 10:37:02
266
原创 Kubernetes 简介及其调度原理
Kubernetes(k8s)是一个全新的基于容器技术的分布式架构领先方案。在Docker技术的基础上,为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列完整功能,提高了大规模容器集群管理的便捷性。
2022-12-02 16:50:02
417
原创 联邦学习
“联邦学习(Federated Learning)”作为一种加密的分布式机器学习范式,可以使得各方在不披露原始数据的情况下达到共建模型的目的,即在不违反数据隐私保护法规的前提下,连接数据孤岛,建立性能卓越的共有模型。
2022-12-02 16:30:17
4927
原创 浅谈数据仓库工具——Hive
Hadoop分布式文件系统(HDFS)因其高容错性、高吞吐量的特点,且适合部署在廉价的机器上,使其非常适合大批量数据的存储,但是如何快速地对HDFS上的文件进行统计分析操作呢?最初是靠写MapReduce编程进行分析,但是MR十分繁琐,而且对不熟悉Java的编程人员十分不友好。另外数据存储HDFS上是没有schema的概念的,这样就不能够使用SQL进行处理。在这种背景下,Hive产生了。Hive可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。
2022-11-30 17:58:22
2601
原创 Flink CDC
CDC是Change Data Capture变更数据获取的简称。核心思想就是检测捕获数据库的变动(包括数据或数据表的插入,更新以及删除等),将这些变更按发生的顺序完成记录下来,写入消息中间件中提供给其他的消费者。
2022-11-24 14:23:08
1201
原创 Elasticsearch简介以及索引原理
Elasticsearch是一个实时的分布式搜索分析引擎,它可以使你以前所未有的速度和规模去探索你的数据。
2022-11-17 14:26:18
637
原创 浅谈Spark分布式计算
Spark本身是一个非常庞大的架构,它衍生出了很多框架,每个框架都有不同的设计理念,都值得我们去学习,学无止境,让我们一起学好基础,努力提高自己吧。
2022-09-24 20:31:25
1943
1
原创 CDC工具之Canal
CDC 的全称是 Change Data Capture ,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。我们通常所描述的CDC 技术主要是指面向数据库的变更,是一种用于捕获数据库中数据变更的技术。
2022-09-24 20:18:37
3567
原创 Spark RDD分区数与分区器源码解析
现如今Spark已经得到了几乎所有大数据企业的认可,而这些企业也迅速将自己的产品与Spark进行了紧密地集成。所以,作为现在最热门的几大分布式大数据计算引擎之一,Spark几乎是大数据工程师的必修课,而RDD作为Spark框架的灵魂所在,也是我们所必须熟悉并掌握的。
2022-09-24 19:44:43
1215
原创 知识图谱与古希腊人物关系
知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。
2022-09-24 18:31:37
1466
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅