- 博客(56)
- 收藏
- 关注

原创 算法工程师的思维:数学公式如何从数学推导到代码实现?
在 二维平面 中,已知两个点 (𝑥1,𝑦1)(x 1,y 1) 和 (𝑥2,𝑦2)(x 2,y 2),我们可以直接使用勾股定理计算直线距离:但在地理计算中,经纬度并不是笛卡尔坐标系,而是 球面坐标,不能直接套用欧几里得距离公式。
2025-02-28 15:17:11
294

原创 如何用DeepSeek 分解需求实现高效代码编程
首先需要对AI有个认知,你把自己当做为需求方,要完善的和AI讲述你的需求,且预估好可能输出的结果只有期望中的80%,正如我们调侃所说的用户想要个披萨,而我们做出个煎饼的期望,但是也有可能直接做出一个完美的披萨出来。然后我们做一个例子这里开始考验的就是,设计该逻辑的工程师到底怎么去理解需求了,首先如果完全没思路,当然可以直接问AI来获取思路,但是我建议不要盲目相信,但可以作为参考!在经过一长段思考之后输出的结果。
2025-02-28 14:36:00
888

原创 解密地球两点的距离:SQL 与 Python 联合实现 Haversine 公式计算
地球的曲率在较小范围内对结果的影响微乎其微,因此Haversine公式可以在这种情况下满足大多数应用的需求。尽管现代的算法(如Vincenty公式)提供了更高的精度,但Haversine公式在地理距离较短的情况下,误差非常小。对于大多数常规应用,计算速度非常快,尤其是当需要处理大量的地理数据时,Haversine函数能够在不增加过多计算负担的情况下提供快速的结果。很多场景下,比如城市范围内的导航、距离估算等,Haversine公式的精度已经足够满足需求,而其计算简便、实现容易,成为了广泛采用的标准方法。
2024-12-11 16:53:09
943

原创 全面解读Apache Flink工作原理和核心组件
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。事件驱动的应用程序是一种有状态的应用程序,它从一个或多个事件流中提取事件,并通过触发计算、状态更新或外部操作对传入事件做出反应。事件驱动型应用程序是传统应用程序设计的演变,具有分离的计算层和数据存储层。在此架构中,应用程序从远程事务数据库读取数据并将数据保存到其中。相比之下,事件驱动型应用程序基于有状态的流处理应用程序。
2024-08-07 18:02:34
1340

原创 深入解析Apache Hadoop YARN:工作原理与核心组件
YARN(Yet Another Resource Negotiator)是Apache Hadoop生态系统中的一个重要组件,用于资源管理和作业调度。它是Hadoop 2.x版本中的一个关键特性,取代了旧版本中的JobTracker和TaskTracker。YARN的设计目标是使Hadoop能够处理更广泛的工作负载,包括批处理、交互式查询、流处理以及其他类型的工作负载。
2024-04-18 11:51:38
4919
1

原创 深度解析 Spark(进阶):架构、集群运行机理与核心组件详解
Spark 应用程序作为集群上独立的进程集运行,由SparkContext 主程序(称为驱动程序)中的对象进行协调。具体来说,为了在集群上运行,SparkContext 可以连接到多种类型的集群管理器 (Spark 自己的独立集群管理器、Mesos、YARN 或 Kubernetes),这些集群管理器跨应用程序分配资源。连接后,Spark 会获取集群中节点上的执行程序,这些执行程序是为应用程序运行计算和存储数据的进程。
2024-04-13 18:49:38
4381

原创 深度解析SPARK的基本概念
Spark的诞生源于对Hadoop MapReduce的改进和优化,旨在提供更快速、更灵活的大数据处理解决方案。Spark最初设计的目标是解决Hadoop MapReduce的一些性能瓶颈和局限性,例如高延迟、缺乏内存计算支持以及难以编写复杂的数据处理流程等。DataFrame和Dataset是Spark中用于处理结构化数据的抽象,它们在RDD的基础上提供了更高级的API和优化的查询引擎。选择最适合的编程语言取决于项目的需求、团队的技术栈以及开发人员的偏好和经验。
2024-04-10 10:24:41
1655

原创 解析Apache Kafka:在大数据体系中的基本概念和核心组件
首先,我们将介绍Kafka的基本概念和核心组件,包括Producer、Consumer、Broker等,并深入探讨其消息存储和分发机制。接着,我们将详细解析Kafka集群的架构设计,包括ZooKeeper的角色、分区和副本的管理以及故障恢复机制。最后,我们将探讨Kafka在大数据领域的应用场景,包括实时日志处理、数据管道和ETL、实时推荐系统、分布式事务处理以及流式数据处理等,并通过实际案例展示其在不同场景下的应用和价值。ZooKeeper会维护所有Broker的信息,并监控它们的健康状态。
2024-04-01 15:57:39
1792

原创 深入解析大数据体系中的ETL工作原理及常见组件
在当今数字化时代,大数据处理已经成为了企业成功的重要组成部分。而在大数据处理中,ETL(Extract, Transform, Load)是至关重要的一环,它负责将数据从不同的来源抽取出来,经过必要的转换和加工,最终加载到目标数据仓库或数据湖中。
2024-04-01 11:30:26
2984

原创 深入理解HDFS工作原理:大数据存储和容错性机制解析
在当今数据爆炸的时代,存储和管理大规模数据成为了许多组织面临的重要挑战。为了解决这一挑战,分布式文件系统应运而生。Hadoop分布式文件系统(HDFS)作为Apache Hadoop生态系统的核心组件之一,已经成为处理大数据的事实标准之一。它以其高可靠性、高容错性和高可用性等特点,在大规模数据存储和处理方面发挥着关键作用。首先,我们将了解HDFS是如何通过数据分片和数据复制等机制来实现数据的高可靠性存储和容错性。随后,我们将探讨HDFS中节点角色的分工,包括NameNode和DataNode,以及它们是
2024-03-30 11:26:23
3096

原创 深度剖析:计算机集群在大数据体系中的关键角色和技术要点
计算机集群是一组相互连接的计算机(服务器),它们协同工作以完成共同的任务。集群中的每个计算机节点都可以独立运行,但它们通过网络连接在一起,以实现更高的可靠性、性能和可扩展性。典型的贝奥武夫配置**
2024-03-29 14:29:30
1552

原创 深入理解MapReduce:从Map到Reduce的工作原理解析
当谈到分布式计算和大数据处理时,MapReduce是一个经典的范例。它是一种编程模型和处理框架,用于在大规模数据集上并行运行计算任务。MapReduce包含三个主要阶段:Map、Shuffle 和 Reduce。**
2024-03-29 10:59:48
4766

原创 深入理解 Hadoop 上的 Hive 查询执行流程
在 Hadoop 生态系统中,Hive 是一个重要的分支,它构建在 Hadoop 之上,提供了一个开源的数据仓库系统。它的主要功能是查询和分析存储在 Hadoop 文件中的大型数据集,包括结构化和半结构化数据。Hive 在数据查询、分析和汇总方面发挥着关键作用,同时也有助于提高开发人员的生产力。然而,这种增加的生产力是以增加延迟和降低效率为代价的。换句话说,Hive 可以被看作是 SQL 的一种变体,而且它确实是一种非常好的 SQL 变体。
2024-03-29 10:43:19
1797

原创 大数据设计为何要分层,行业常规设计会有几层数据
ODS的主要目的是在保持数据的原始状态的同时,提供一个中间层,用于将来自各个业务系统的数据整合、清洗和标准化,以支持后续的数据分析、报表生成和业务应用等需求。:ODS层主要用于存储原始的、经过简单处理的业务数据,通常是从各个业务系统中提取的数据,保留了数据的原始状态和结构,是数据仓库中的第一层。这包括去除错误、重复、不完整或不一致的数据,以及将数据转换成适合分析和报表生成的格式。安全性:由于ODS层存储了原始的业务数据,因此需要采取必要的安全措施,保护数据的机密性和完整性,防止数据泄露和不当使用。
2024-03-28 17:45:58
2237
原创 小白教程!Dbeaver配置数据库的操作流程
2.打开微软商店 Microsoft Store,搜索 dbeaver,点击“免费下载”,下载完成后安装即可。填写完成后,点击左下角的“测试连接”,如出现如下弹窗,则表示数据库连接成功!1.点击电脑左下角的搜索栏,选择“应用”,输入“微软商店”
2025-02-28 16:04:53
937
原创 使用 SQL 计算字符串相似度
该方法仅基于字符的匹配,并未考虑拼写的不同或语义的差异。对于多语言或复杂文本的处理可能不够精确。简单直观,不需要复杂的机器学习模型。执行速度较快,适合大规模数据处理。
2024-12-20 16:17:56
626
原创 自动识别json数据提取至excel(python代码数据来源于某眼查)
1.把json数据保留在本地电脑文件路径当中,路径请修改file_path。2.自动识别数据后,文件存放至路径请修改output_path。
2024-10-08 15:56:02
388
原创 OceanBase:引领下一代分布式数据库技术的前沿
OceanBase是一款由蚂蚁金服开发的分布式关系数据库系统,旨在提供高性能、高可用性和强一致性的数据库服务。它结合了关系数据库和分布式系统的优势,适用于大规模数据处理和高并发业务场景。
2024-07-12 17:11:51
1289
原创 Python教学入门:函数
局部作用域(Local Scope):局部作用域是指在函数内部定义的变量,只能在函数内部被访问。这意味着它们的生命周期仅限于函数的执行期间。x = 10 # x 是局部变量print(x)my_function() # 输出:10print(x) # 报错,x 在函数外部不可访问全局作用域(Global Scope):全局作用域是指在模块顶层定义的变量,可以在模块中的任何地方被访问。x = 10 # 全局变量print(x) # 函数中可以访问全局变量my_function() # 输出:10。
2024-04-18 16:43:31
948
原创 python教学入门:字典和集合
frozenset() 函数用于创建一个不可变的集合,它接受一个可迭代对象作为参数,并将其中的元素添加到集合中。set() 函数用于创建一个可变的集合,它接受一个可迭代对象作为参数,并将其中的元素添加到集合中。【- 】操作符用于计算两个集合的差集,即返回存在于第一个集合但不存在于第二个集合中的元素组成的新集合。^ 操作符用于计算两个集合的对称差,即返回存在于任一集合但不同时存在于两个集合中的元素组成的新集合。& 操作符用于计算两个集合的交集,即返回同时存在于两个集合中的元素组成的新集合。
2024-04-18 14:12:49
525
原创 Python教学入门:流程控制
条件语句用于根据条件的真假执行不同的代码块。循环语句用于重复执行特定代码块。循环控制语句用于控制循环的执行流程。pass 语句是空语句,用于保持程序结构的完整性,不做任何操作。
2024-04-18 13:18:20
274
原创 Python教学入门:数字类型与字符串
例如:‘hello’、“world”、‘’‘Hello, world!在 Python 中,整数是不可变的,可以表示正整数、负整数和零。复数由实部和虚部组成,形式为a + bj,其中a是实部,b是虚部。在 Python 中,字符串可以使用单引号、双引号或三引号表示。浮点数在计算机中是以近似值存储的,因此可能存在精度问题。Python 中整数的大小仅受限于计算机的内存。Python 中使用 j 表示虚数单位。浮点数用于表示带有小数点的数字。
2024-04-18 12:16:22
304
原创 大数据行业英语单词巩固20240413
示例:数据可视化工具帮助我们更轻松地理解复杂的数据集。示例:我们的软件使用 API 与其他应用程序进行通信。示例:我们的防火墙保护我们的网络免受未经授权的访问。示例:我们的团队使用分析来跟踪网站流量和用户行为。示例:预测分析帮助我们预测未来趋势并做出主动决策。示例:可靠的网络对于我们组织内的无缝通信至关重要。示例:用户友好的界面对于积极的客户体验至关重要。示例:我们不断致力于优化策略以改进我们的流程。示例:升级我们的基础设施将增强我们的网络安全。示例:将新软件集成到我们的系统中将提高效率。
2024-04-13 18:56:05
487
原创 大数据行业英语单词巩固20240410
20240410Big Data - 大数据Data Analytics - 数据分析Machine Learning - 机器学习Data Mining - 数据挖掘Artificial Intelligence (AI) - 人工智能Predictive Analytics - 预测分析Hadoop - HadoopData Warehouse - 数据仓库Data Scientist - 数据科学家Data Visualization - 数据可视化Cloud Computin
2024-04-10 10:37:01
702
原创 深度学习入门指南
随着人工智能技术的快速发展,深度学习已成为解决各种复杂问题的重要工具。然而,对于初学者来说,深度学习的复杂性可能会让人望而却步。本文将为您提供一份全面的深度学习入门指南,助您逐步掌握这一领域的核心知识和技能。深入探讨深度学习领域的前沿技术和研究方向:自然语言处理、计算机视觉、强化学习等。分享一些真实世界的深度学习应用案例,如智能语音识别、图像分类、自动驾驶等。选择一个经典的深度学习项目,并从零开始实现。推荐学习资源和社区,持续学习的重要性。实践中遇到的常见问题和解决方法分享。
2024-04-03 11:10:29
403
原创 探索大数据时代下与云计算技术融合:实现企业级数据处理与分析的灵活性和效率性
此外,云计算平台还提供了多种存储服务,包括对象存储、文件存储和数据库服务,可以根据数据类型和访问需求选择合适的存储方式,从而提高数据存储的效率和可靠性。“云”通常是指云计算(Cloud Computing),是一种基于互联网的计算模式,通过互联网将计算资源(如存储、计算、数据库等)提供给用户,并根据用户的需求按需提供、灵活调整。云计算是一种基于互联网的计算方式,通过虚拟化技术将计算资源(如计算力、存储空间、网络带宽等)通过网络按需提供给用户,实现高效、灵活、可扩展的计算资源共享。
2024-04-03 10:59:16
1084
原创 2025年 CS2最佳游戏启动项及常见启动项问题
Counter-Strike 2(CS 2)是一款备受瞩目的游戏,而启动选项则是影响游戏性能和体验的关键因素之一。然而,有关所有选项都应该强制使用的说法并不正确。事实上,大多数选项可能对某些计算机并不适用,因此,了解如何选择最佳启动选项至关重要。在 Counter-Strike 2 中,正确配置启动选项是提升游戏性能和体验的关键。
2024-04-03 10:33:41
37373
原创 探寻大数据思想的主要贡献者与核心内容
在信息爆炸的时代背景下,大数据思想应运而生。我们将追溯大数据思想的起源,探讨信息技术的发展如何催生了对于大数据处理的需求,以及这一需求如何引发了大数据思想的诞生。
2024-04-02 17:53:01
1318
原创 探索未来AI技术领域的创业机遇
随着科技的不断进步,人工智能(AI)技术正日益成为当今世界的焦点之一。其在各行各业的广泛应用,给创业者们提供了丰富的机会和挑战。然而,随着AI技术的快速发展和不断拓展的应用领域,创业者们将如何抓住这些机会,并在竞争激烈的市场中取得成功呢?
2024-04-01 18:05:16
983
原创 深入理解 SQL 中的数据集合和数据关联
在数据库管理系统中,数据集合和数据关联是 SQL 查询中常见的概念。它们是构建复杂查询和分析数据的基石。本文将深入探讨 SQL 中的数据集合和数据关联,包括它们的概念、常见用途以及实际示例。数据集合是指从一个或多个表中检索出来的一组数据。在 SQL 中,可以通过 SELECT 语句来定义数据集合。数据集合可以是简单的单表数据,也可以是多个表的联合结果。数据关联是指将两个或多个表中的数据联系起来,以便于在查询中一起使用。在 SQL 中,可以通过使用连接(Join)来实现数据关联。
2024-04-01 17:26:09
832
原创 《Python之路:系统自学指南》
此外,Python官方文档也是学习Python不可或缺的资源,里面包含了丰富的教程、示例代码以及详细的函数和模块介绍,可以帮助你快速掌握Python的各种功能和用法。然而,学习Python并不是一蹴而就的事情,尤其是对于没有编程基础的初学者来说,往往需要一套系统的学习方法和指南。可以定期阅读一些Python相关的技术博客、参加一些线下的技术活动、关注一些Python领域的专家和大牛等方式来保持学习的动力和热情。在学习Python的过程中,要重点理解编程的基础概念,如变量、数据类型、运算符、流程控制语句等。
2024-04-01 17:13:01
1130
原创 数据库:介绍、分类、作用和特点
数据库是一个有组织的、持久的、可共享的数据集合,用于有效地存储和管理大量数据。它可以理解为一个电子化的文件柜,存放着各种类型的数据,并提供了灵活的检索、更新和删除功能,以满足用户的需求。数据库的出现使得数据管理变得更加高效、可靠,大大提高了数据的利用价值。
2024-04-01 16:56:57
390
原创 理解 SQL 数据添加:从基础到实践
在现代软件开发中,数据库是不可或缺的一部分。而 SQL 作为结构化查询语言的代表,广泛应用于数据库管理系统中,为我们提供了强大的数据管理和查询能力。我们将从基础的 SQL INSERT INTO 语句开始,逐步展开讨论,包括数据添加的内部工作原理、影响性能的因素、常见的最佳实践以及一些高级技巧。SQL 数据添加的工作原理涉及数据库引擎的内部机制。这些操作可能涉及到锁的获取和释放,以保证数据的一致性和并发性。
2024-04-01 16:48:50
593
原创 探讨在大数据体系中API的通信机制与工作原理
在当今数字化时代,数据已经成为企业发展和决策的核心。随着数据规模的不断增长,管理和分析这些海量数据变得至关重要。为了有效地处理大数据,各种技术和工具被引入到企业的数据体系中。而其中,API(application programming interface 应用程序编程接口)的作用愈发凸显。
2024-04-01 12:32:58
1252
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人