大数据杂货铺-CSDN博客

原创图数据库：工作原理及优势

图数据库：工作原理、何时使用以及其优势1. 什么是图数据库？图数据库是一种专门的 NoSQL 数据库，旨在存储和查询通过定义的关系连接的数据。图数据库中的数据点称为节点，这些节点通过边连接到相关数据。附加到每个节点的数据称为属性。图数据库不受关系数据库等预定义架构的限制，这种灵活性允许数据在应用程序的整个生命周期中自然连接。由于其简单易用，图数据库迅速成为数据管理中增长最快的类别之一。2. 图数据库用例开发人员和分析师将图数据库用于各种用例场景。当您使用关系来处理图数据库中的交易时，您可以检测到单

2024-08-13 13:20:27 1409 1

原创图数据库入门指南

在本指南中，您了解到图数据库是专门的单一用途平台，用于创建和操作具有关联性和上下文性质的数据。您还了解到，尽管关系数据库和图数据库的职责显而易见，即存储数据和表示关系，但它们在实现目标的方式上却大不相同。例如，关系数据库使用 SQL 进行操作，而图数据库使用遍历算法，这使得它们的速度更快，即使对于大型数据集也是如此，并且更适合具有大量互连性的数据。图数据库是一种专用的单一用途平台，是针对连接数据优化的数据存储，用于创建和处理具有关联性和上下文性质的数据。富有表现力的图形查询语言是图数据库的一大优势。

2024-08-13 13:02:10 749

原创使用 OpenSearch 的 K-NN 向量搜索来增强搜索功能

在这篇博文中，我们将探讨如何使用 DigitalOcean 管理的 OpenSearch 和一组称为 K-Nearest Neighbor 向量搜索 (K-NN) 的技术来解决这些限制。无论是用于推荐系统、图像检索还是 NLP 应用程序，OpenSearch 的 K-NN 向量搜索都是搜索技术领域的宝贵工具。例如，从网上商店购买书籍的用户可能会被推荐同一作者的其他书籍、同一类型的书籍，甚至是具有类似偏好的其他用户购买的书籍。使用近似最近邻算法，开放搜索能够以更快的速度提供相关搜索结果，且占用的内存更少。

2024-08-03 16:13:31 1192

原创 pgvector： 30 倍构建向量嵌入索引

通过利用并行索引构建的强大功能，开发人员现在可以更快速、更高效地构建 HNSW 索引，从而显著减少此类任务传统上所需的时间和资源。这是通过将查询向量与数据库中的每一行进行比较来实现的，这使得向量搜索难以扩展。Postgres 最受欢迎的向量搜索扩展 pgvector 最近实现了并行索引构建功能，这将分层可导航小世界 (HNSW) 索引构建时间显著提高了 30 倍。和 pgvector 的贡献者发布此版本，这巩固了 Postgres 作为最佳向量搜索数据库之一的地位，并允许您充分利用数据库的功能来构建索引。

2024-08-01 07:53:37 1127

原创改进向量搜索-使用PostgresML和LlamaIndex重新排名

但是，它对于重新排序我们数据集的子集非常有效，因为它擅长评估新的、未见过的数据，而无需大量用户交互数据进行微调。在这里，我们将检索器配置为返回排名前两个的文档，但这次，我们添加了一个重新排名参数以使用mixedbread-ai/mxbai-rerank-base-v1模型。这意味着我们的初始语义搜索将返回 100 个结果，然后由mixedbread-ai/mxbai-rerank-base-v1模型对这些结果进行重新排名，并且仅显示排名前两个的结果。设置您的帐户，并将上述示例与您自己的数据一起使用。

2024-07-26 14:20:42 551

原创使用 MongoDB 向量搜索和 OpenAI 进行反洗钱和预防欺诈

在图 1 中突出显示的此解决方案中，使用文本、交易和交易对手数据的组合来创建用于欺诈检测的向量嵌入。解决这些问题的传统方法包括静态、基于规则的系统和预测人工智能 (AI) 方法，这些方法虽然有效，但也有局限性，例如缺乏背景信息和特征工程开销以保持模型的相关性，这可能会耗费大量时间和成本。这一进步利用实时数据馈送和持续监控来检测新出现的威胁并适应不断变化的风险形势，解决数据不平衡、手动特征工程和大量人工监督需求的局限性，同时纳入更广泛的变量和上下文信息。是将过去的交易数据和客户资料编码为向量格式的表示。

2024-07-26 13:58:44 667 2

原创使用 mongo2neo4j 和 SemSpect 通过各种方式进行图探索

我们提供了一个方便的工具包，其中包含 mongo2neo4j 数据转换器、Neo4j 数据库以及图形探索和查询应用程序 SemSpect，它建立了一个可配置的工作流程，可以真正连接隐藏在 MEAN 堆栈的 MongoDB 数据库中的点。集合包含 JSON 对象，在 MongoDB 中称为文档，具有类似的结构（例如，一个用于用户的集合，一个用于产品的集合，一个用于订单的集合等）。在搜索框中搜索“法国”并按。但是，此集合中的“isoname”对象字段的值（即法国）似乎与用户的“country”字段的值相匹配。

2024-07-05 21:46:09 1307 1

原创数据科学入门-初学者指南

最后，您可能需要了解其他语言或程序，例如用于数据可视化的 Tableau，不过值得一提的是，如今很多数据可视化都是用 Python 或 R 完成的。可视化数据到洞察的流程。通过定义这些指标，您可以建立一种可量化的方法来跟踪和评估您的策略在提高客户保留率方面的有效性。按照我们的例子，您需要能够在您所在的企业和更广泛的商业环境中明智地谈论您的客户流失结果。在那里，数据处理可能涉及清理和转换客户交易数据、合并和协调来自不同来源（例如网站分析和客户关系管理 (CRM) 系统）的数据，以及处理缺失或不一致的数据。

2024-07-03 09:21:13 1292

原创 PDF 如何高效的转换成 markdown

它特别适合处理书籍和科学论文，支持多语言的转换，并且可以去除页眉、页脚等干扰元素，格式化表格和代码块。例如，合合旗下的智能文字识别品牌提供的在线服务，支持多种文件格式（如pdf、jpg、jpeg、png、bmp）的转换，上传单个文件大小不超过20M。：虽然Markdown不是所见即所得的编辑工具，但它通过简单的标记语法实现了精准的格式控制，生成的文档保持原来的排版和格式。另一个推荐的在线工具是Aspose，它提供了一个简单的界面，您只需上传PDF文件，它就会自动将其转换为Markdown格式。

2024-06-26 14:45:36 4018

原创图与矢量 RAG — 基准测试、优化手段和财务分析示例

此外，他强调了 Apple Music 等服务的增强以及公司对可持续发展的承诺，包括努力实现碳中和和使用再生材料，这与具有环保意识的利益相关者产生了共鸣。此外，该公司的产品和服务也受到了一定影响，其中 Mac 和可穿戴设备受到的影响最大，而 iPhone 受到的影响最小。图结构有助于为答案检索的广度和深度创造手段。使用财务报告 RAG 示例，我们探索了图和矢量搜索之间的响应差异，对两种类型的答案输出进行了基准测试，展示了如何通过图结构优化深度和广度，并探索了为什么将图和矢量搜索结合起来是 RAG 的未来。

2024-06-06 13:03:03 1010

原创遗留和现代数据库中的向量搜索

简而言之，向量搜索是数据管理和检索的重大转变，标志着该领域的一项令人振奋的发展。重要的是要理解，与之前显示的稀疏向量不同，其中每个元素可以表示一个明确的特征，例如文档中存在的单词，而嵌入的每个元素也代表一个特定的特征，但在大多数情况下，我们甚至不知道该特征是什么。它之所以有吸引力，是因为它使数据库能够找到与给定文档向量最相似的文档，从而增强了数据库的搜索引擎的强大功能，而这是它们以前所缺乏的。这意味着同一个词可以根据其上下文具有不同的向量表示，而不同的词如果具有相同的上下文，则可以具有相似的向量。

2024-05-27 13:10:43 1057

原创 AI代理的类型、优势及示例

它们提醒我们重要的约会，回答我们好奇的问题，让我们的日程安排步入正轨，甚至管理我们的智能家居。很棒的是，当我们与他们互动时，他们会了解我们，随着时间的推移，他们的帮助会变得更加有针对性和有价值。我们将探索代理的实例及它们在各领域的应用，为未来的人工智能趋势和对客户体验的影响铺平道路。为了实现其目标，它采用了一个效用函数，将代表成功或幸福的数值分配给不同的状态（持卡人面临的情况，如：购买、支付账单、兑换奖励等）。在更复杂的系统中，可能有多个级别，中间级别的代理负责协调较低级别代理的活动。

2024-05-23 16:47:28 1210

原创使用 LlamaParse 进行 PDF 解析并创建知识图谱

通过与 LlamaIndex 的直接整合，LlamaParse不仅能够支持对这些复杂、半结构化文档的解析，还能够在检索时提供支持，从而让用户能够回答之前难以解决的复杂问题。此外，由于它与LlamaIndex 的紧密整合，用户可以非常方便地将解析后的数据用于增强检索和上下文理解，从而大大提高了信息检索的效率和准确性。由于部分节点的文本内容可能超出嵌入模型强制执行的标记长度限制（8k，~ 5k 个单词），因此通过将内容拆分为段落可以帮助纠正此限制，并且嵌入更相关的文本，因为它们出现在相同的文本中段落。

2024-05-17 16:13:22 3054 2

原创 ElasticSearch 与 OpenSearch:拉开性能差距

虽然 Rally 是由 Elastic 开发的，主要是为了对 Elasticsearch 进行基准测试而设计的，但它是一个灵活的工具，可以适应与 OpenSearch 一起使用。使用默认的开箱即用设置，Elasticsearch 使用的磁盘空间减少了 37%，并且当在两者上使用 _best_compression_（用于此基准测试的编解码器）时，Elasticsearch 的空间效率仍然提高了 13%。他们的验证重申了我们比较的稳健性和可靠性，使您能够根据我们的基准测试结果做出明智的决定。

2024-05-06 15:33:41 1229 2

原创 OpenSearch 与 Elasticsearch：7 个主要差异及如何选择

但 Elasticsearch 背后的公司 Elastic NV 和亚马逊之间的紧张关系加剧， Elastic NV 的开发人员最终反对亚马逊使用其产品和商标，指控亚马逊侵犯商标权和误导性营销，并于 2019 年对这家科技巨头提起诉讼，指控其涉嫌商标侵权和虚假广告。如果您更喜欢具有完善社区和广泛文档的成熟产品，Elasticsearch 可能是更好的选择。亚马逊的 OpenSearch 的贡献者社区更加有限，而且企业赞助商的关注度也较低，因此在未来的创新方面可能会逐渐落后于 Elasticsearch。

2024-05-06 15:17:20 7284 3

原创了解 AI 相似性搜索

Amazon Q 的美妙之处在于，您可以给它实际的文档，将它们存储在 S3 中，或者给它一个 URL，它会为您抓取整个网站。该向量代表了单词 cat 的含义，因为它与训练数据中的其他单词相关。这些专门的人工智能使用预先训练的模型，这些模型已经学会了如何将文本表示为高维向量。非常相似的向量的余弦将接近 1。例如，在材料科学的研究中，矢量可用于比较负载下材料内的应力或应变矢量。如果用户正在寻找与《沙丘》类似的书籍的推荐，它会看到《沙丘》聚集在"科幻小说"类型中，并返回诸如"2001：太空漫游"之类的推荐。

2024-04-26 15:29:43 940

原创全文搜索与矢量搜索比较

随着我们对搜索精度和上下文的追求不断发展，出现了一个问题：我们能否平衡全文搜索的词汇灵活性和向量搜索的语义深度？就其本身而言，全文搜索和矢量搜索都无法满足构建快速、相关的搜索体验的所有标准。尽管依赖不同的底层技术，但它也解决了与全文搜索类似的目的：通过改进搜索的发现方面来增强用户的能力。这种混合方法将全文搜索与语义搜索相结合，提高了搜索结果的准确性和全面性。构建最先进的搜索体验需要结合全文搜索和矢量搜索的优势。它建立在全文搜索的可访问性、即输入即搜索体验的基础上，并集成了人工智能搜索支持的增强发现功能。

2024-04-23 12:01:01 1362 4

原创掌握心理学：使用 Mistral-7B 和 LangChain 构建专家 RAG

在人工智能的旋风世界中，每当这些充满了所有奇特的扩展训练数据的新模型下降时，我们几乎都会受到摆布。这都是关于实用的技巧和策略，为您提供清晰的步骤来提升您的社交游戏水平。我们都经历过大语言模型似乎陷入困境的时刻，由于其有限的训练数据而无法产生一致的反应。通过利用外部数据源增强基本语言模型的功能来提高响应的质量和深度，这使其对于需要特定领域专业知识的任务（例如提供社交技能和心理学建议）特别有价值。想象一下，你最喜欢的人工智能助手无法为你提供有帮助的答案，但却喋喋不休地告诉你如何获得问题的答案。

2024-04-16 20:12:52 1009

原创提高大型语言模型（LLM）性能的四种数据清理技术

这些技术解决了文本数据中的差异、不精确的术语和其他潜在错误，显着提高了输入数据的质量。是用于自动化主题建模过程的最流行的技术，是一种统计模型，可通过仔细观察单词模式来帮助找到文本中隐藏的主题。包含大语言模型的拼写错误或不相似的字符（例如表情符号），则可能会混淆大语言模型对所提供的上下文的理解。接下来，我们将制作一个提示，要求模型根据从我们的综合对话中收集的信息作为友好的客户服务代理进行响应。等技术，就像将凌乱的房间整理成整齐的类别一样，帮助您的模型识别文档的主题并快速对大量信息进行排序。

2024-04-15 13:44:56 2292

原创 RAG-Fusion 提高 LLM 生成文本的质量和深度

而无需进行任何调整[3]。它考虑项目在原始排名中的位置，对多个列表中排名较高的项目给予更高的重要性[2]。这种多查询生成是通过称为提示工程和自然语言模型的技术来实现的[4]。功能的搜索方法，引入了查询生成和重新排名结果等附加步骤，以提高生成文本的质量[6]。代表了搜索方法的重大进步，提供了比其他方法更精细和更全面的文本生成[8，9，6，7]。中的附加步骤，例如查询生成和重新排名结果，旨在提高生成文本的质量和深度[4-5]。的兴起通过将矢量搜索的力量与生成模型相融合，改变了人工智能和搜索空间的范式[7]。

2024-04-14 17:26:14 1049

原创通过 Flink SQL 使用 Hive 表丰富流

1. 介绍流处理是通过在数据运动时对数据应用逻辑来创造商业价值。很多时候，这涉及组合数据源以丰富数据流。Flink SQL 执行此操作并将您应用于数据的任何函数的结果定向到接收器中。业务用例，例如欺诈检测、广告印象跟踪、医疗保健数据丰富、增加财务支出信息、GPS 设备数据丰富或个性化客户通信，都是使用蜂巢表来丰富数据流的很好的例子。因此，Hive 表与 Flink SQL 有两种常见的用例：Lookup（查找）表用于丰富数据流用于写入 Flink 结果的接收器对于这些用例中的任何一个，还有两种方法

2022-11-22 13:14:50 2560 1

原创 Datagen-CDP平台的模拟数据生成器

Datagen 是一个项目，旨在提供一个用户友好、可定制的界面，以将数据生成到各种 Cloudera CDP平台服务中。（甚至在平台之外）。

2022-11-07 16:25:19 9203

原创在CDP平台上安全的使用Kafka Connect

演示如何将 Kafka Connect 集成到 Cloudera 数据平台 (CDP) 中，从而允许用户在 Streams Messaging Manager 中管理和监控他们的连接器，同时还涉及安全功能，例如基于角色的访问控制和敏感信息处理。

2022-11-01 10:38:53 1262

原创安全云数据湖仓一体的 10 个关键

数据湖仓一体架构在设计上结合了复杂的组件生态系统，每个组件都是可以利用数据的潜在路径。将这个生态系统迁移到云端对于那些规避风险的人来说可能会感到不知所措，但云数据湖仓一体安全多年来已经发展到可以更安全、正确完成并提供比本地部署显着优势和好处的地步数据湖仓一体部署。以下是 10 种基本的云数据湖仓一体安全实践，它们对于保护、降低风险和为任何部署提供持续可见性至关重要。*

2022-10-31 10:57:47 343

原创网络安全：大数据问题

数据的产生和消耗量不断增加，因此必须受到保护。毕竟，我们相信我们在电脑屏幕上看到的一切都是真实的，不是吗？当我们考虑到世界各地都有不良行为者试图破坏为人民服务的技术（数据）时，网络安全成为全球普遍存在的问题。

2022-10-27 16:16:02 1798

原创 CDP 多Namenode配置

此功能为 CDP Private Cloud Base 提供了使用多个备用名称节点的能力。

2022-10-17 13:11:07 430

原创 Cloudera 的开放湖仓采用dbt Core增压

为了便于在 Cloudera 数据平台 (CDP) 上开始使用 dbt，我们将我们的开源适配器和 dbt Core 打包在一个经过全面测试和认证的可下载包中。我们还简化了 dbt 与 CDP 的治理、安全和 SDX 功能的无缝集成。通过此公告，我们欢迎我们的客户数据团队在其开放数据湖库中使用任何引擎在任何形式的任何格式的数据之上简化数据转换管道，并提供其业务可以信任的高质量数据。

2022-10-15 19:11:51 858

原创如何在RELS8.4上安装CDP-PvC Base 7.1.8并启用Auto-TLS

CDP PVC BASE7.1.8是Cloudera与Hortonworks合并后，第一个融合CDH和HDP所有组件的on-premise并且可用于生产环境的新功能版本，CDP PvC Base主要由Cloudera Runtime构成，Cloudera Runtime由超过40个开源项目组成，当然CDP PvC Base还包括其它功能如管理功能Cloudera Manager，Key Management，专业支持等。

2022-10-15 19:04:35 3004

翻译跨域身份管理系统 (SCIM) 简介

Cloudera 的身份团队一直在努力将跨域身份管理系统 (SCIM) 支持添加到 Cloudera 数据平台 (CDP)，我们很高兴地宣布 SCIM 在 Azure Active Directory 上的全面可用性！

2022-10-13 16:35:29 5804

翻译数据湖仓一体的好处

如果您喜欢自己做，并且有人员和时间来配置和管理它，那么 PaaS 数据湖仓部署可能是您的最佳选择。但是，如果您更愿意专注于为您的业务提供支持的分析工作负载，那么可以考虑 Cloudera 最近发布的 CDP One，这是一个基于 Cloudera 的云数据平台（CDP 公共云）的自助数据湖仓，这是一个开放数据湖仓软件套件

2022-10-12 14:11:58 773

原创数据架构的三大纠缠趋势：数据网格、数据编织和混合架构

一本关于如何调和看似相似但不同的趋势的入门书，这些趋势使数据团队难以解决棘手的“一次无处不在”的问题。

2022-10-10 13:35:51 1650

原创 Ozone-适用于各种工作负载的灵活高效的存储系统

Apache Ozone 是一种分布式、可扩展和高性能的对象存储，可与Cloudera 数据平台(CDP) 一起使用，可以扩展到数十亿个不同大小的对象。它被设计为原生的对象存储，可提供极高的规模、性能和可靠性，以使用 S3 API 或传统的 Hadoop API 处理多个分析工作负载。

2022-10-09 13:25:33 1299

原创【公告】CDP私有云基础7.1.8发布

Cloudera Data Platform (CDP) Private Cloud (PvC) Base 7.1.8 和 Cloudera Manager 7.7.1 的发布，它们引入了关键的新功能，以改进为您的业务用户提供的分析能力，增强企业准备，以及额外的第三方支持。这是一个累积维护版本，继承了 7.1.7 Service Pack 1 (SP1) 和之前版本的功能。

2022-10-09 11:22:59 540

原创【公告】CDP私有云基础7.1.8发布

我们很高兴地宣布 Cloudera Data Platform (CDP) Private Cloud (PvC) Base 7.1.8 和 Cloudera Manager 7.7.1 的发布，它们引入了关键的新功能，以改进为您的业务用户提供的分析能力，增强企业准备，以及额外的第三方支持。这是一个累积维护版本，继承了 7.1.7 Service Pack 1 (SP1) 和之前版本的功能。以下是 7.1.8 的一些亮点，我们想提请您注意：此版本一致关注平台弹性，大大提高了平台的高可用性 (HA)，这

2022-09-02 09:15:33 1484

原创超越Data Fabric，Cloudera现代数据架构

1. 对Data Fabric的需求正如 Cloudera 首席营销官 David Moxey 在他的博客中概述的那样，我们生活在一个混合数据的世界中。数据正在增长并继续加速增长。它正在改变妆容并出现在越来越多的地方。从中获得洞察力和价值，既是机遇也是挑战。因此，企业访问、使用并从中创造价值变得越来越复杂。在您可以利用您的数据之前，您需要知道您拥有什么，如何以安全和合规的方式使用它，以及如何将其提供给企业。过去的定制和复杂的企业数据集成已经演变成一种现代数据架构，可以智能、安全地编排所有不同的数据源，甚

2022-08-17 15:44:09 196

原创 Cloudera 流处理社区版(CSP-CE)入门

Cloudera 在为流处理提供综合解决方案方面有着良好的记录。Cloudera 流处理 (CSP) 由 Apache Flink 和 Apache Kafka 提供支持，提供完整的流管理和有状态处理解决方案。在 CSP 中，Kafka 作为存储流媒体底层，Flink 作为核心流处理引擎，支持 SQL 和 REST 接口。CSP 允许开发人员、数据分析师和数据科学家构建混合流数据管道，其中时间是一个关键因素，例如欺诈检测、网络威胁分析、即时贷款批准等。我们现在推出 Cloudera 流处理社区版 (CSP

2022-08-17 11:55:31 767

原创 CDP灾难恢复简介

在过去的十年中，数据和数据驱动的洞察力与公司有效运营能力的整合出现了爆炸性增长，为那些做得好的公司带来了不断增长的竞争优势。我们的客户已经习惯了这种洞察力带来的决策速度。数据对于长期战略和日常甚至每分钟的运营都是不可或缺的。每天，我们都看到Cloudera 数据平台(CDP) 正在成为客户必须以可用、可靠和有弹性的方式运行的关键业务分析平台。数据平台不再是臭鼬工程或科学实验。客户现在希望他们的应用程序堆栈中的企业行为，无论该应用程序做什么。当客户导入他们的大型机和遗留数据仓库工作负载时，平台期望它能够满足

2022-08-17 11:23:27 546

原创使用 CSP进行欺诈检测

在本系列的前一篇博客《将流转化为数据产品》中，我们谈到了减少数据生成/摄取之间的延迟以及从这些数据中产生分析结果和洞察力的日益增长的需求。我们讨论了如何使用带有 Apache Kafka 和 Apache Flink 的Cloudera 流处理(CSP) 来实时和大规模地处理这些数据。在这篇博客中，我们将展示一个真实的例子来说明如何做到这一点，看看我们如何使用 CSP 来执行实时欺诈检测。构建实时流分析数据管道需要能够处理流中的数据。流内处理的一个关键先决条件是能够收集和移动在源点生成的数据。这就是我们所

2022-07-20 09:38:33 1998

原创将流转化为数据产品

每个大型企业组织都在尝试加速其数字化转型战略，以更加个性化、相关和动态的方式与客户互动。在创建和收集数据时对数据执行分析（也称为实时数据流）并生成即时洞察以加快决策制定的能力为组织提供了竞争优势。组织越来越多地从实时数据流构建低延迟、数据驱动的应用程序、自动化和智能。欺诈检测、网络威胁分析、制造智能、商务优化、实时报价、即时贷款批准等用例现在可以通过将数据处理组件向上移动来满足这些实时需求。Cloudera 流处理 (CSP) 通过提供分析流数据的复杂模式并获得可操作的情报的功能，使客户能够将流转化为数

2022-07-19 21:34:28 479

原创用Flink SQL流化市场数据2：盘中风险价值

本文是一个由多部分组成的系列文章的第二篇，该系列文章展示了FlinkSQL应用于市场数据的功能和可表达性。万一您错过了它，第一部分从计算流VWAP的简单情况开始。该系列的代码和数据可在github上获得。速度在金融市场上至关重要。无论目标是最大化alpha还是最大程度地减少风险，金融技术人员都会投入大量资金，以获取有关市场状况以及行情的最新见解。事件驱动和流式处理体系结构可在事件发生时对事件进行复杂的处理，使其很自然地适合金融市场应用。Flink SQL是一种数据处理语言，可用于事件驱动和流应用程序的快

2022-07-15 21:02:42 1691

Getting-Started-with-Grails-Chinese

敏捷软件开发：原则、模式与实践(全)

空空如也