大数据
文章平均质量分 94
大数据
-无-为-
做过开发,创过业,踩过坑。从Java后台开发,PL/SQL开发,Pro*C开发,到shell脚本,再到兼职开发的MySQL DBA。
为人友善诚恳,工作踏实,吃苦耐劳,富有朝气,激情,以及团队合作意识。
https://github.com/zhouxx1055
https://zhouxx.blog.csdn.net/
展开
-
实战:ElasticSearch索引管理和映射详解(补充)
静态信息不可更改,如索引的分片数。这个类比存在一个严重的问题,就是当多个mapping type中存在同名字段时(特别是同名字段还是不同类型的),在一个索引中不好处理,因为搜索引擎中只有 索引-文档的结构,不同映射类别的数据都是一个一个的文档(只是包含的字段不一样而已)如果别名logs_write指向的索引是7天前(含)创建的或索引的文档数>=1000或索引的大小>= 5gb,则会创建一个新索引 logs-000002,并把别名logs_writer指向新创建的logs-000002索引。原创 2024-07-30 08:27:01 · 828 阅读 · 0 评论 -
实战:ElasticSearch 索引操作命令(补充)
同时,旧版本文档被标记为删除,同理,该文档可以被搜索到,只是最终被过滤掉。合并的过程实际上是创建了一个新的 segment,当新 segment 被写入磁盘,所有被合并的旧 segment 被清除。这个节点的任务是广播查询请求到所有相关分片,并将它们的响应整合成全局排序后的结果集合,这个结果集合会返回给客户端。可以认为一个对文档的操作一旦写入磁盘便是安全的可以复原的,因此只有在当前操作记录被写入磁盘,分片仅会返回一个轻量级的结果给协调节点,包含结果集中的每一个文档的 ID 和进行排序所需要的信息。原创 2024-07-30 08:03:12 · 1193 阅读 · 0 评论 -
实战:安装ElasticSearch 和常用操作命令
在 Elasticsearch 中,索引是由一个或多个分片组成的。每个分片是一个完整的 Lucene 索引,独立存储数据并执行搜索操作。通过分片,Elasticsearch 可以将数据分布到多个节点上,从而提高系统的吞吐量和容错能力。原创 2024-07-30 07:50:05 · 752 阅读 · 0 评论 -
科普文:docker网络
默认网络: Docker安装后自动创建bridge、host、none三个网络,可通过。Docker官方提供了五种网络模式:Bridge(默认模式):每个容器分配IP,并连接到docker0虚拟网桥,通过Iptables nat表与宿主机通信。Host:容器不配置虚拟网卡,使用宿主机的IP和端口。Container:新容器不创建自己的网络配置,与指定容器共享IP、端口。None:关闭容器网络功能,不与其他容器或宿主机连通。Overlay:这种模式用于在多个Docker主机之间创建一个虚拟原创 2024-07-29 12:00:29 · 550 阅读 · 0 评论 -
科普文:容灾
容灾(Disaster Tolerance),就是在自然灾害、设备故障、人为操作破坏等的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。容灾:是指系统冗余部署,当一处由于意外停止工作,整个系统应用还可以正常工作。容错:是指在运行中出现错误(如上下游故障或概率性失败)仍可正常提供服务。可用性:描述的是系统可提供服务的时间长短。用公式来说就是A=MTBF/(MTBF+MTTR),即正常工作时间/(正常工作时间+故障时间)。原创 2024-07-28 08:11:48 · 975 阅读 · 0 评论 -
科普文:2PC、3PC、Paxos、Raft、ZAB、NWR一致性协议汇总和对比
首先,更新本逻辑时钟Epoch,同时清空本轮逻辑时钟收集到的来自其他server的选举数据。但是,对于分布式和NWR模型来说,版本也会有恶梦的时候——就是版本冲的问题,比如:我们设置了N=3 W=1,如果A结点上接受了一个值,版本由v1 -> v2,但还没有来得及同步到结点B上(异步的,应该W=1,写一份就算成功),B结点上还是v1版本,此时,B结点接到写请求,按道理来说,他需要拒绝掉,但是他一方面并不知道别的结点已经被更新到v2,另一方面他也无法拒绝,因为W=1,所以写一分就成功了。原创 2024-07-27 22:18:14 · 378 阅读 · 0 评论 -
科普文:分布式数据一致性协议Paxos
在接收到来自集群中的其他 Follow 服务器的投票信息后,集群中的每个 Follow 服务器都会与自身的投票信息进行对比,如果判断新的投票信息更合适,则采用新的投票信息作为自己的投票信息。在集群中的投票信息还没有达到超过半数原则的情况下,再进行新一轮的投票,最终当整个 ZooKeeper 集群中的 Follow 服务器超过半数投出的结果相同的时候,就会产生新的 Leader 服务器。当该提案通过网络发送到集群中的其他角色服务器后,这些服务器会就该会话在本地的执行情况反馈给发起提案的服务器。原创 2024-07-27 22:14:50 · 916 阅读 · 0 评论 -
科普文:分布式一致性算法Paxos原理与推导过程
Paxos算法在分布式领域具有非常重要的地位。但是Paxos算法有两个比较明显的缺点:1.难以理解 2.工程实现更难。网上有很多讲解Paxos算法的文章,但是质量参差不齐。看了很多关于Paxos的资料后发现,学习Paxos最好的资料是论文《Paxos Made Simple》,其次是中、英文版维基百科对Paxos的介绍。本文试图带大家一步步揭开Paxos神秘的面纱。原创 2024-07-27 22:12:27 · 828 阅读 · 0 评论 -
科普文:分布式协议之一致性hash算法
在解决分布式系统中负载均衡的问题时候可以使用Hash算法让固定的一部分请求落到同一台服务器上,这样每台服务器固定处理一部分请求,起到负载均衡的作用。但是普通的余数hash(hash(比如用户id)%服务器机器数)算法伸缩性很差,当新增或者下线服务器机器时候,用户id与服务器的映射关系会大量失效。一致性hash则利用hash环对其进行了改进为了能直观的理解一致性hash原理,这里结合一个简单的例子来讲解,假设有4台服务器,地址为ip1,ip2,ip3,ip4。原创 2024-07-27 22:09:53 · 799 阅读 · 0 评论 -
科普文:kubernets原理
kubernetes 已经成为容器编排领域的王者,它是基于容器的集群编排引擎,具备扩展集群、滚动升级回滚、弹性伸缩、自动治愈、服务发现等多种特性能力。本文将带着大家快速了解 kubernetes ,了解我们谈论 kubernetes 都是在谈论什么。从宏观上来看 kubernetes 的整体架构,包括 Master、Node 以及 Etcd。Master 即主节点,负责控制整个 kubernetes 集群。它包括 Api Server、Scheduler、Controller 等组成部分。原创 2024-07-27 22:04:52 · 687 阅读 · 0 评论 -
科普文:docker基础概念、软件安装和常用命令
容器是在隔离的环境里面运行的一个进程,这个隔离的环境有自己的系统目录文件,有自己的ip地址,主机名等。也可以说:容器是一种轻量级虚拟化的技术。原创 2024-07-27 21:48:07 · 1052 阅读 · 0 评论 -
科普文:分布式一致性协议和Raft
但以谁的提议为准呢?由此可见 Lease Read 的正确性和时间是挂钩的,依赖本地时钟的准确性,因此虽然采用 Lease Read 做法非常高效,但是仍然面临风险问题,也就是存在预设的前提即各个服务器的 CPU Clock 的时间是准的,即使有误差,也会在一个非常小的 Bound 范围里面,时间的实现至关重要,如果时钟漂移严重,各个服务器之间 Clock 走的频率不一样,这套 Lease 机制可能出问题。在选举中,只有当舰队中超过一半的船都同意,发起选举的船才能够成为旗舰,否则就只能开始一轮新的选举。原创 2024-07-27 21:13:17 · 993 阅读 · 0 评论 -
科普文:云计算服务类型IaaS, PaaS, SaaS, BaaS, Faas说明
提供基础设施服务,包括服务器、存储、网络等硬件资源。用户可以在这些基础设施上运行自己的应用和数据,从而大大降低了基础设施的购买和管理成本。这种服务模式让用户能够专注于应用开发,而不必担心基础设施的管理和维护。提供了一个平台和环境,用户可以在这个平台上开发、运行和管理自己的应用。PaaS解放了用户从基础设施管理的困扰,让他们可以专注于应用的开发。这种服务模式通过提供开发工具、运行时环境等,简化了应用的开发和部署过程。。原创 2024-07-23 11:48:11 · 1108 阅读 · 0 评论 -
科普文:搭建信贷业务大数据风控体系
大家好,本期为大家介绍如何从0到1搭建大数据风控体系。分为:获客、贷前、贷中、贷后、主要数据维度,以及如何识别风险客户。原创 2024-07-22 14:10:58 · 981 阅读 · 0 评论 -
实战:ForkJoinPool对大文件导入技术优化指南
Fork/Join框架是Java7提供了的一个用于并行执行任务的框架。ForkJoinPool是Java中提供了一个线程池,特点是用来执行分治任务。主题思想是将大任务分解为小任务,然后继续将小任务分解,直至能够直接解决为止,然后再依次将任务的结果合并。是一种工作窃取算法的线程池,它特别适用于计算密集型任务,尤其是那些可以递归分解成更小子任务的问题。ForkJoinPool的原理主要基于两个核心概念:fork和join。Fork。原创 2024-07-22 08:17:38 · 1318 阅读 · 0 评论 -
科普文:RedSearch全文搜索
RediSearch是一个Redis模块,为Redis提供查询、二次索引和全文搜索。要使用RediSearch,首先要在Redis数据上声明索引。然后可以使用重新搜索查询语言来查询该数据。RedSearch使用压缩的反向索引进行快速索引,占用内存少。RedSearch索引通过提供精确的短语匹配、模糊搜索和数字过滤等功能增强了。原创 2024-07-22 02:59:24 · 731 阅读 · 0 评论 -
科普文:银行信贷系统概叙
功能:接受进件、审批、输出结果、支持自动与人工审批、调用其他风控系统;作用:统一对接外部数据源,支持审批过程中的数据调用;其他系统包括:核心系统(账务系统),资管系统,客户端系统,服务端系统,数据计算平台,短信平台,语音系统等。通过完善的风控系统和业务数据平台,信贷机构能够更有效地管理风险,提高审批效率,为客户提供更优质的服务。系统交互完成策略判断:基于预设的风控策略,系统对申请人的信用状况、还款能力等进行深度分析和判断。系统交互完成审批:系统通过自动化和人工相结合的方式,对贷款申请进行初步筛选和审批。原创 2024-07-22 02:50:49 · 669 阅读 · 0 评论 -
科普文:重读并翻译分布式计算经典文论-MapReduce
Mapreduce是一种处理和生产大型数据集的大型数据集的编程模型和相关实现。用户指定一个map函数,该函数处理键/值对以生成一组中间健/值对,以及一个reduce函数,该函数合并与同一中间键关联的所有中间值。如本文所示,许多现实世界中的任务都可以用该模型表示。用这种函数式风格编写的程序可以自动并行化,并在大型商用机器集群上执行。运行时系统需要关注对输入数据进行分区、在一组机器上调度程序的执行、处理机器故障以及管理所需的机器间通信等细节。原创 2024-07-22 02:29:01 · 974 阅读 · 0 评论 -
规范:数据分析规范
听上去非常合理,但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户,往往这批用户的指标较好,但不代表新版本更好。但实际中,部分合理的猜测找不到直观可行的验证,在给出猜测性结论的时候,一定是基于合理的、有部分验证依据前提下,谨慎地给出结论,并且说明是猜测。不同的目标对象所处的位置不同,看问题的角度就不一样,比如高层更关注方向,分析报告需要提供业务的深度洞察和指出潜在机会点,中层及员工关注具体策略,基于分析结论能通过哪些具体措施去改善现状。同一数据序列使用相同的颜色。原创 2024-07-21 10:12:03 · 880 阅读 · 0 评论 -
玄姐:阿里基于 Spring AI 发布新版本
Spring Cloud Alibaba AI 目前已经顺利融合了 Spring AI 框架的 0.8.1版本接口,并实现了与“通义”高级模型系列的顺畅连接。这种整合是通过阿里云的灵积模型服务实现的,该服务基于“模型即服务”(MaaS)的理念,专注于 AI 领域的多样化模型应用,并通过标准化API,有效地支持模型推理、模型微调等全方位的功能。原创 2024-07-19 04:54:34 · 787 阅读 · 0 评论 -
科普文:企业级磁盘阵列软件架构与功能概述
其实控制平面的软件可以理解为前文介绍的集群管理软件,他会监控控制器的节点状态和其中运行的资源的状态,当发现节点异常的情况下会进行业务的切换。控制平面的软件结合存储系统的冗余设计,可以极大的保证存储系统的可靠性和可用性。硬件的冗余设计加上软件的配合,极大的提高了存储系统的可靠性,减小了存储系统的宕机时间。管理平面是管理员访问存储系统的接口,管理平面的软件实现了对存储系统中资源的管理。当然,上述划分方法是作者自己对一些自己接触到的存储系统的总结,并非每一个存储的软件架构都是这样的。原创 2024-07-19 04:45:23 · 770 阅读 · 0 评论 -
科普文:多线程如何使用CPU缓存?
计算机的基础知识聊的比较少,但想要更好的理解多线程以及为后续多线程的介绍做铺垫,所以有必要单独开一篇来聊一下 CPU cache。不过在386时期,由于成本的问题,并没有内部L1 Cache,只有外部的Cache。而486时代,CPU频率再次增加,外部Cache的速度也要相应提高,使得成本太高,于是内嵌了8K的L1 Cache,同时也可以使用外部的L2 Cache。直到Pentium时代,由于Pentium采用了双路执行的超标量结构,有2条并行整数流水线,需要对数据和指令进行双重的访问,为了使得这些访问原创 2024-07-19 04:32:42 · 888 阅读 · 0 评论 -
邵楠:数据湖存储的现状和未来趋势
数据湖无缝对接多种计算分析平台,对Hadoop生态支持良好,存储在数据湖中的数据可以直接对其进行数据分析、处理、查询,通过对数据深入挖掘与分析,洞察数据中蕴含的价值。• 数据无需处理、直接存储:支持结构化、半结构化、非结构化多种类型数据,数据可以按照原始产生的形态直接存储,在需要分析阶段,再通过数据引擎进行处理,对接多种数据输入源,提供便捷的数据接入和数据消费通道。下图是阿里云EMR数据湖架构图,它是基于开源生态的大数据平台,既支持HDFS的开源数据湖,也支持OSS的云上数据湖。原创 2024-07-19 04:26:15 · 918 阅读 · 0 评论 -
科普文:分布式系统中的一致性协议概叙
Google 的粗粒度锁服务 Chubby 的设计开发者 Burrows 曾经说过:“所有一致性协议本质上要么是 Paxos 要么是其变体”。Paxos 虽然解决了分布式系统中,多个节点就某个值达成一致性的通信协议。但是还是引入了其他的问题。由于其每个节点,都可以提议提案,也可以批准提案。当有三个及以上的 proposer 在发送 prepare 请求后,很难有一个 proposer 收到半数以上的回复而不断地执行第一阶段的协议,在这种竞争下,会导致选举速度变慢。原创 2024-07-18 10:05:26 · 795 阅读 · 0 评论 -
科普文:银行信用卡风险大数据分析与挖掘
首先,在信用等级影响因素分析方面,文章使用Excel数据挖掘功能处理了客户信用记录表,通过预处理数据、构建决策树模型和分析模型结果,得出了客户信用等级的主要影响因素。因此,文章建议银行为自购房的年轻高学历客户提供更优惠的服务,同时对租房的老年低学历客户采取更谨慎的风险管理策略。例如,对于分类1的用户,银行可能希望提供更多高端服务或优惠,而对于分类3的用户,则可能需要关注如何提升他们的活跃度和消费额。例如,分类1的用户似乎是最活跃的,他们不仅有最高的日均交易次数和日均消费金额,而且单笔消费的最大金额也最高。原创 2024-07-16 02:56:38 · 1068 阅读 · 0 评论