ModaHub魔搭社区
文章平均质量分 82
ModaHub魔搭社区——中文AI模型开源社区,提供实战AI模型,向量数据库,ModaHub排行榜和AI应用导航,让AI模型应用落地更简单!
ModaHub魔搭社区
大禹智库——致力于AIGC,向量数据库和低代码研究与顾问咨询。代表作《实战AI大模型》,《向量数据库指南》,《低代码指南》
展开
-
Milvus Cloud 问答机器人 上线!构建企业级的 Chatbot
为了得到更好的回答质量,自 Milvus Cloud 2.4 起,文档质量建设的工作一直在进行,包括内容的更新、校准和优化,文档结构的梳理与重新组织等。这些 metadata 对检索非常重要,因为根据用户的问题,某些类型的文档可能比其他类型的文档更重要。在与业内专家和分析师的交流中我们得出共识,随着大模型在知识库检索场景的广泛落地,问答机器人等应用会越发普及,RAG 应用(如知识库问答、网页客服、售后技术支持等)将在近两年全面开花结果,未来产品的介绍、客服、助手都会结合 RAG 的能力,提升用户使用体验。原创 2024-06-13 12:01:44 · 98 阅读 · 0 评论 -
Milvus Cloud 非结构化数据平台
总体而言,我们定义的数据平台,是在向量数据库中向量的语义查询、检索的能力之上,有 embedding 提取能力、与原始非结构化数据本体之间的映射能力、与下游大模型算法和应用程序整合的能力。5)数据与模型和应用的交互,有了向量数据库后,语义的表达最终要和机器、算法和模型交互,其中向量数据库到各种模型之间的交互、AI 应用程序之间的交互和整合极为复杂;3)映射管理,即管理数据的本体和数据的语义层之间的映射,在非结构化数据量庞大的情况下,有效维护前述映射会变得很复杂;原创 2024-05-25 15:40:47 · 68 阅读 · 0 评论 -
基于 Milvus Cloud + LlamaIndex 实现初级 RAG
在增强过程中,初级 RAG 在如何有效地将检索到的段落的上下文与当前生成任务进行整合方面也面临着不小的挑战。冗余和重复也是一个棘手的问题,特别是当多个检索到的段落包含相似信息时,生成的回复中可能会出现重复的内容。低召回率会导致无法检索到所有的相关块,从而导致LLM的回复不够全面。此外,使用老旧的信息进一步加剧了问题,可能导致不准确的检索结果。生成回复质量面临着幻觉挑战,即 LLM 生成的答案并没有基于所提供的上下文,和上下文不相关,或者生成的回复存在着包含有害或歧视内容的潜在风险。原创 2024-05-24 08:00:55 · 68 阅读 · 0 评论 -
Milvus Cloud 高效支持灵犀医疗两大核心场景
医学领域的术语多种多样,一种疾病往往会有多种亚组,同时会有很多的定语,例如“既往接受过含氟尿嘧啶类或含铂类化疗的晚期胃癌或胃食管交界部腺癌”,如果采用传统切词后的全文检索,将难以实现该知识内容的搜索。”:EviMed 的数据分析版块构建了一套 AI Agent,如果将所有的背景信息全部输入进大模型的话成本较高,而向量数据库可以将这些背景信息存储下来,后续根据 Agent 的需求再进行向量匹配的调取,从而一定程度上去除了大模型长上下文的依赖,降低了数据分析的成本。原创 2024-04-18 19:04:44 · 34 阅读 · 0 评论 -
OpenAI 将在 2027 年实现人类水平的 AGI ?完整 PDF 流出……
除了开头提到的内容,该 PDF 还提到了去年被曝光的 Q*。Q* 是一个传闻中的未发布的 OpenAI 项目,专注于人工智能在逻辑和数学推理方面的应用。这份 PDF 直接指出 Q * 的下一阶段就是 GPT-6,现已更名为 GPT-7,不过因埃隆·马斯克的一纸诉状被搁置。目前,对于这份 PDF 的真伪尚未有定论,毕竟其文档来源于一个名为「vancouver1717」的 X 账户,该账户并不活跃,只发过两条推文。这是最近硅谷乃至整个科技圈都在讨论的热门话题,内容均源自一份名为。的 PDF,细节相当炸裂。原创 2024-03-06 09:35:23 · 525 阅读 · 0 评论 -
ModaHub魔搭社区——阿里云通义千问宣布开源!70亿参数模型上线魔搭社区,免费可商用
8月3日,AI模型社区魔搭ModaHub上架两款开源模型Qwen-7B和Qwen-7B-Chat,阿里云确认其为通义千问70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。用户既可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问和调用Qwen-7B和Qwen-7B-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。阿里云表示,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。原创 2023-08-04 00:34:07 · 360 阅读 · 0 评论 -
《向量数据库指南》——腾讯云向量数据库Tencent Cloud Vector DB正式上线公测!提供10亿级向量检索能力
腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、文本图像检索、自然语言处理等 AI 领域。向量数据库通过把数据向量化然后进行存储和查询,可以极大地提升效率和降低成本。统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。企业原先接入一个大模型需要花1个月左右时间,使用腾讯云向量数据库后,3天时间即可完成,极大降低了企业的接入成本。原创 2023-08-01 19:36:20 · 1147 阅读 · 0 评论 -
《向量数据库指南》——2023年7月国产向量数据库排行榜Top3:Milvus,Milvus Cloud,Tencent Cloud VectorDB
根据VectorDBBench数据,2023年7月的国产向量数据库排行榜中,排名前十的向量数据库分别是Milvus、Milvus Cloud、Tencent Cloud VectorDB、Zilliz Cloud、TensorDB、cVector、Om-iBASE、Vearch、Transwarp Hippo和Proxima。它提供了云端向量数据库服务,可以快速搭建云端向量数据库平台,支持多种数据源接入和多种查询语言,同时还提供了可视化界面和API接口,方便用户进行数据管理和查询。原创 2023-08-01 14:33:59 · 697 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud设置运维窗口和设置时区
目前,运维窗口设置为全局设置,应用于 Zilliz Cloud 上的所有集群。为避免在业务高峰期进行运维导致业务中断,Zilliz Cloud 默认不会在当地时间每日凌晨 0 点到下午 2 点期间进行大规模更新。运维前,您会提前收到运维事件通知。运维日当天,Zilliz Cloud 会优先在您设置的运维窗口进行相关操作。运维事件通常持续两个小时,期间可能会发生服务中断。默认的运维窗口为当地时间凌晨 2 点到凌晨 4 点之间。您可以在维护时间设置中选择合适的运维窗口。运维事件完成后,您会收到完成通知。原创 2023-07-18 09:00:00 · 191 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud组织与项目和添加项目成员
Zilliz Cloud 通过组织和项目实现访问控制和资源逻辑分离。使用组织与项目功能,您可更精细地管理跨项目集群。原创 2023-07-18 08:00:00 · 171 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Weaviate简介
Weaviate 是一个低延迟矢量搜索引擎,开箱即用地支持不同的媒体类型(文本、图像等)。它提供语义搜索、问答提取、分类、可定制模型(PyTorch/TensorFlow/Keras)等。Weaviate 在 Go 中从头开始构建,同时存储对象和向量,允许将向量搜索与结构化过滤和容错相结合云原生数据库,所有这些都可以通过 GraphQL、REST 和各种编程语言客户端访问。Weaviate 是类型向量搜索引擎的开源数据库。原创 2023-07-15 21:00:00 · 397 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Weaviate 对比 Milvus
Milvus 执行节点(worker nodes)负责各种操作,包括连接数据库、消化数据、构建索引、查询搜索等。另一种是向量索引,用于支持高性能查询。此外,Weaviate 的混合查询功能结合了稠密和稀疏向量。9 种(FLAT、IVS_FLAT、IVF_SQ8、IVF_PQ、HNSW、ANNOY、BIN_FLAT、BIN_IVF_FLAT)向量数据库可用于存储、索引和管理由深度神经网络学习与其他机器学习模型生成的海量向量。此外,不同的数据插入、查询速率,以及不同的底层硬件适用于不同的应用场景。原创 2023-07-14 21:00:00 · 587 阅读 · 1 评论 -
ModaHub魔搭社区:向量数据库Weaviate与Milvus分析报告
在这份报告中,我们将深入分析Weaviate与Milvus两款开源向量数据库,通过比较其可扩展性、功能、设计等方面的差异,以帮助您根据自身需求选择最适合的数据库。Milvus支持Partition/Namespace/逻辑分组功能,使用户能够将数据库划分为逻辑上独立的组别,从而实现更灵活的数据管理和更好的性能。例如,在实时信息检索系统中,用户可以将不同类型的数据(如文本、图像或视频)划分为不同的Partition,以便更好地进行搜索和过滤。在选择时,请根据您的具体需求评估两款数据库的功能匹配度。原创 2023-07-13 17:36:34 · 1599 阅读 · 0 评论 -
AI原生云向量数据库Zilliz Cloud查看备份快照和恢复备份
本文介绍如何查看已创建的快照信息。您可以手动或自动创建快照。原创 2023-07-13 16:51:05 · 106 阅读 · 0 评论 -
AI原生云向量数据库Zilliz Cloud创建备份快照
快照是为某个集群在指定时间点创建的备份。您可以基于快照创建新的集群或将快照用作集群数据备份。说明快照功能目前仅对签约用户开放。如需使用该功能,请联系我们。原创 2023-07-12 16:22:15 · 222 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud设置白名单
在 Zilliz Cloud 中,白名单是针对项目的安全设置,适用于项目下的所有集群。设置白名单后,仅白名单中的 IP 地址可以访问您项目下的所有集群。白名单能够有效降低受到恶意攻击的风险本教程将介绍如何设置白名单。原创 2023-07-16 15:00:00 · 202 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud管理 MFA
本教程将介绍如何在 Zilliz Cloud 账号设置中管理多重身份认证(MFA)。目前,Zilliz Cloud 仅支持通过邮箱进行多重身份认证。原创 2023-07-16 09:00:00 · 93 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud管理身份凭证
与 Zilliz Cloud 交互时,您需要提供身份凭证以验证身份。身份凭证由用户名及对应的密码组成。Zilliz Cloud 根据身份凭证来验证您的请求并授权。连接 Zilliz Cloud 集群时,您必须提供具有访问权限的用户名和对应密码。如果您的身份凭证显示您无权限连接集群,Zilliz Cloud 则会拒绝您的访问请求。创建集群时,Zilliz Cloud 会自动创建一个名为的默认用户,您需要为该默认用户输入一个初始密码。用户被授予权限,表示该用户有权访问集群级别的所有资源和执行所有操作。原创 2023-07-15 15:00:00 · 138 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud数据类型JSON
定义 JSON 字段的过程与定义其他类型字段的过程相同。PythonNodeJSJavaGo# 1. 定义字段fields = [# 2. 创建 Schemafields# 3. 在 Collection 中引用 Schema# 4. 对向量字段进行索引# 5. 加载 Collection上述代码中,您需要创建一个与 JSON 字段对应的 FieldSchema 对象,并将 dtype 属性设置为 DataType.JSON。原创 2023-07-15 09:00:00 · 214 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud开启动态 Schema
Schema 对于 Zilliz Cloud 集群的数据处理非常重要。在向 Collection 中插入 Entity 前,需要先根据业务需求设计 Schema,并确保所有待插入的 Entity 的结构都与设计好的 Schema 相匹配。如果业务需求发生变化,可能会导致需要重新设计 Schema。动态 Schema 的引入使得用户能够在不修改现有 Schema 的前提下,将带有新字段的 Entity 插入到 Collection。原创 2023-07-14 15:00:00 · 112 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud如何为 Collection 定制 Schema
本文介绍如何为 Collection 定制 Schema。原创 2023-07-12 13:14:12 · 94 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 LangChain 集成搭建智能文档问答系统
本文将演示如何使用 Zilliz Cloud 和 LangChain 搭建基于大语言模型(LLM)的问答系统。在本例中,我们将使用一个 1 CU 的 Cluster,还将使用 OpenAI 的 Embedding API 来获取指定文本的向量表示。现在就让我们开始吧。原创 2023-07-12 09:21:09 · 1251 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 PyTorch 集成搭建图片搜索系统
在本文中,我们将演示如何使用 Zilliz Cloud 搭建一个简单的图片搜索系统。该系统使用的数据集是上提供的印象派大师分类器数据集( Impressionist-Classifier Dataset )。在本示例中,我们将该数据库重新托管到了一个公共的 Google Drive 中。本示例需要使用一个 1 CU 的 Zilliz Cloud Cluster,并使用 PyTorch 的预训练 ResNet50 模型获取指定图片的向量表示。现在,让我们开始吧!原创 2023-07-17 08:00:00 · 191 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 LlamaIndex 集成搭建文档问答系统
本文将演示如何与集成 LlamaIndex 从指定源获取信息。在 ChatGPT 占领各大头条时,越来越多的企业在考虑如何在它们的产品中使用 ChatGPT。一个比较大的使用场景就是如何使用 ChatGPT 来改造产品文档孱弱的搜索能力。当前,如果用户希望了解如何使用一个产品,他们需要查看每个文档页面来找到他们需要的答案。如果使用 ChatGPT 来代替这个过程呢?如果 ChatGPT 可以帮助用户归纳所需的信息并回答用户可能会有的问题呢?原创 2023-07-16 08:00:00 · 208 阅读 · 0 评论 -
odaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 SentenceTransformers 集成搭建电影搜索系统
本文将演示使用 Zilliz Cloud 和 SentenceTransformers 对一篇 Wikipedia 文章进行搜索。示例中用到的数据集为 Wikipedia-Movie-Plots Dataset,你可以在上找到该数据集。我们将该数据集重新托管到了一个公共的 Google Drive。您需要在 Zilliz Cloud 上创建一个大小为 1 CU 的 Cluster。原创 2023-07-15 08:00:00 · 90 阅读 · 0 评论 -
ModaHub魔搭社区:开源向量数据库的Milvus怎么读?
此外,需要注意的是,Milvus作为一个中文词语,也可以按照英文的发音方式来读。在这种情况下,可以按照字母的发音读出“M”和“I”,然后将“L”和“V”合并成一个音节,最后将“S”和“U”合并成一个音节。综上所述,Milvus作为一个中文词语和开源向量数据库Milvus品牌名称,可以根据不同的场景和用途进行解释和发音。Milvus是一个中文词语,意为“Milvus navigate,为智慧找方向,为价值做链接,为创作者做伙伴”。在发音时,需要将三个拼音连在一起,注意每个音节的发音准确性和重音的把握。原创 2023-07-11 13:42:14 · 1889 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 HuggingFace 集成搭建问答系统
本文将演示如何使用 Zilliz Cloud 和 HuggingFace 搭建问答系统。其中,Zilliz Cloud 负责提供向量数据库,HuggingFace 负责提供获取指定文字向量表示的接口。原创 2023-07-11 17:00:00 · 288 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 Cohere 集成搭建智能问答系统
本文将演示如何使用 Zilliz Cloud 和 Cohere 搭建基于的问答系统。其中,Zilliz Cloud 负责提供向量数据库,Cohere 负责提供获取指定文字向量表示的接口。原创 2023-07-11 20:00:00 · 316 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 OpenAI 集成搭建相似性搜索系统
本文将讨论如何使用 OpenAI 的 Embedding API 与 Zilliz Cloud 搭建相似性搜索系统。在本篇中你将看到如何使用 OpenAI 的 Embedding API 和 Zilliz Cloud 完成图书检索。当前,很多的图书检索方案,包括公共图书馆里使用的那些方案,都是使用关键词匹配的方式获取检索结果,并没有真正理解书名的含义。本文搭建的相似性搜索系统实现了基于语义的搜索能力。原创 2023-07-11 10:20:17 · 198 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库MIlvus Cloud实现 HNSW
这个教程中,我们深入研究了 HNSW——一种强大的基于图的向量搜索策略,涉及多层连接图。HNSW 是一个非常流行的算法,而且通常是 Milvus 用户寻求最大查询性能的首选。原创 2023-07-11 12:35:05 · 467 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库MIlvus Cloud的HNSW 基础知识
了解了跳表之后,让我们花些时间来谈谈 NSW。这里的总体思路是先想象一个网络中的众多节点。每个节点都有与其他节点的短程、中程和远程连接。当进行搜索时,我们将从一些预先定义的入口点开始。从那里,我们将评估与其他节点的连接,并跳到与我们希望找到的节点最接近的那个节点。这个过程不断重复,直到我们找到最近的邻居。这种搜索称为“贪心搜索”。该算法适用于数百或数千个节点的小型 NSW,但对于更大的 NSW,它往往会崩溃。原创 2023-07-11 17:42:51 · 555 阅读 · 0 评论 -
ModaHub魔搭社区:AI原生云向量数据库MIlvus Cloud的倒置文件索引?
在本教程中,我们看了向量索引的三个单独组成部分,以及两种最常用的方法——平面索引和倒置文件索引。这是两种最基本的策略,我们后面会以此为基础再进一步深入研究更复杂的索引类型。下一个教程中,我们将继续深入研究标量量化和乘积量化的索引策略,这是 Milvus 受欢迎的两种量化策略。下次见!原创 2023-07-11 10:07:47 · 472 阅读 · 0 评论 -
ModaHub魔搭社区:常用的相似性度量——浮点向量相似性度量和二进制向量相似性度量
本教程中,我们了解了向量相似性搜索,以及一些常见的向量搜索算法和距离度量。Embedding 向量是强大的语义表示技术,无论是在向量之间的距离还是在向量算术方面。通过将大量的向量代数应用于 Embedding,我们可以只用基本的数学运算符来进行可扩展的语义分析。目前有各种各样的近似近邻搜索算法和索引类型可供选择。最常用的是 HNSW,但不同的索引算法应用场景可能不同,这取决于拥有的 Embedding 总数以及每个单独向量的长度。原创 2023-07-10 09:48:54 · 208 阅读 · 0 评论 -
ModaHub魔搭社区:非结构化数据范式转变和示例
在这一点上,你可能想知道,如果非结构化数据没有固定的大小或格式,我们如何进行数据搜索和分析?更具体地说,深度学习。过去十年里,大数据和深度神经网络的结合从根本上改变了数据驱动应用的方式。这给使用该数据的行业和公司带来了新的挑战:我们如何能以类似于结构化或半结构化数据的方式来转换、存储和搜索非结构化数据?既然我们对结构化数据和半结构化数据有了清晰的理解,现在让我们开始谈谈非结构化数据。与结构化数据和半结构化数据不同,非结构化数据可以采取任何形式,可以有任意大小或尺寸,并需要大量的运行时间来转换和索引。原创 2023-07-11 15:00:00 · 186 阅读 · 0 评论 -
ModaHub魔搭社区:什么是非结构化数据?
欢迎来到向量数据库 101 系列教程。原创 2023-07-14 08:00:00 · 53 阅读 · 0 评论 -
ModaHub魔搭社区:Zilliz Cloud 版本类型和价格计算器教程
在配置集群前,您需要先选择版本。Zilliz Cloud 各版本提供不同的服务体验、计费模型,且性能及可扩展性也都有所不同。目前, Zilliz Cloud 共有 2 个版本可供选择,以满足多样的用户需求。2 个不同的版本为不同的用户需求及使用场景设计,您可以根据自己的需求灵活选择。原创 2023-07-13 21:00:00 · 267 阅读 · 0 评论 -
ModaHub魔搭社区:向量数据库Zilliz Cloud数据模型教程
定义数据模型是指为数据库中数据创建一个清晰有序的数据模型。数据模型可以揭示数据之间的关系。因此,定义数据模型是为了了解数据集中的所有数据,展示数据间联系,从而用最有效的方式表示数据关系。原创 2023-07-13 09:00:00 · 201 阅读 · 0 评论 -
ModaHub魔搭社区:向量数据库Zilliz Cloud的CU 类型教程
创建 Zilliz Cloud 集群时,您需要选择 CU(计算单元)的类型和大小。CU 是用于并行处理数据的基本计算资源单位。原创 2023-07-13 08:00:00 · 115 阅读 · 0 评论 -
ModaHub魔搭社区:向量数据库Zilliz Cloud的ANN 搜索教程
通过 k-最近邻(kNN)搜索可以找到一个查询向量的 k 个最近向量。kNN 算法将查询向量与向量空间中的每个向量进行比较,直到出现 k 个完全匹配的结果。尽管 kNN 搜索可以确保准确性,但十分耗时。尤其是数据量大,向量维度高时,耗时更久。相比之下,近似最近邻(ANN)搜索耗时更短。ANN 算法会预先构建索引。选择不同的索引算法会影响搜索速度、内存使用情况和准确性。各种类型的 ANN 索引算法主要分为 2 种思路:缩小搜索范围和将高维向量空间分解为低维子空间。原创 2023-07-12 09:00:00 · 108 阅读 · 0 评论 -
ModaHub魔搭社区:向量数据库Zilliz Cloud集群、Collection 及 Entity教程
Zilliz Cloud 集群由全托管 Milvus 实例及相关计算资源构成。您可以在 Zilliz Cloud 集群中创建 Collection,然后在 Collection 中插入 Entity。Zilliz Cloud 集群中的 Collection 类似于关系型数据库中的表。Collection 中的 Entity 类似于表中的记录。原创 2023-07-12 08:00:00 · 126 阅读 · 0 评论