自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jina AI 的博客

从 0 到 1,用 Jina 搭建一个神经搜索系统

  • 博客(193)
  • 收藏
  • 关注

原创 MIT 科技评论最新报告揭示多模态 AI 带来的巨大机遇

相比于单模态人工智能,能够同时处理多种类型信息的多模态AI技术,带来了更大的机遇,同时也要面临更复杂的挑战。MIT 科技评论在发布的最新洞察报告《多模态:人工智能的新前沿》中,详细阐述了多模态人工智能的发展状况和未来潜力,及其复杂性与挑战性。多模态是一个新兴术语,但它所描述的实际上是一种源远流长的理解方式:自人类出现以来,我们就是通过这种方式来了解世界的。人们通过视觉、听觉和触觉等多种感官,从各种...

2024-05-14 18:18:45 775

原创 Jina Reranker 新模型发布,更小、更快、更便宜!

在传统文本搜索技术已经相对成熟的背景下,如何进一步提高搜索的效率和速度成为了新的追求目标。应对这一挑战,Jina Reranker 模型系列推出了两款针对性能调优的新模型:jina-reranker-v1-turbo-en 和 jina-reranker-v1-tiny-en,它们在保证搜索高准确度的同时,特别强化了处理速度和资源优化。这两款模型现已上线AWS Sagemaker 和 Huggi...

2024-04-23 17:04:01 746

原创 关注企业 RAG 应用私有部署,Jina AI 模型登陆 Amazon SageMaker

本文主要介绍了如何在 AWS(亚马逊云服务)上使用 Jina AI 的 Embeddings 和 Rerankers 模型来构建 RAG 应用,涵盖从配置 AWS 账户、设置 Python 环境、订阅模型、加载数据集、启动模型、构建和索引数据集的各个步骤。此外,还展示了如何利用FAISS 数据库进行语义搜索、以及整合 Mistral-Instruct LLM 用于生成结果等。Jina AI 的 ...

2024-04-18 15:16:42 1008

原创 搜索准确性提升 20%,Jina Reranker 成为 RAG 优化的新标杆!

日前,我们正式发布了 Jina Reranker(jina-reranker-v1-base-en),专为提高搜索准确性打造。Jina Reranker 在多个权威测评中屡获领先,实验数据显示,相比简单 RAG 系统,搭载该模型的检索系统命中率提高 8%,MRR 更是飙升 33%。

2024-03-05 19:55:51 1285

原创 RAG 领域的新宠:为什么 AI 圈都在谈论 Jina ColBERT?

向量模型新选择!

2024-02-27 03:52:02 1240

原创 Jina AI 请回答 2023

年度回顾- Jina AI-2023 年,正如它所对应的生肖“兔”,充满活力和智慧。AI 技术在全球范围内的颠覆性发展,让 2023 年成为大家公认的人工智能元年。作为从四年前成立起,就专注于多模态 AI 技术研发的前沿科技公司,我们在 2023 年取得了长足的进展。在这辞旧迎新之际,我们希望通过回顾过去一年在技术、产品、品牌、社区方面积累的成果,和大家一起迎接充满力量和希望的龙年!从 2020...

2024-02-06 16:02:28 880 1

原创 Jina AI 发布中英和英德双语 8K 向量模型,百万 Token 大放送!

亮点提前看双语模型支持:继 8k 向量模型在 Huggingface 突破百万下载后,Jina Embeddings 系列又开源了中英、英德双语 8k 向量模型,分别为 jina-embeddings-v2-zh 和 jina-embeddings-v2-de。百万 Token 随心用:Jina AI 向所有用户赠送一百万 token,访问 jina.ai/embeddings 即可免费领取密钥,...

2024-02-02 16:44:35 932

原创 Jina AI 发布中英和英德双语 8K 向量模型,即刻开源!

作为多模态人工智能技术领域的翘楚,Jina AI 的使命是通过创新的向量大模型和提示词技术,铺平通往多模态 AI 的未来之路。我们正在积极扩展多语言产品线,以满足更广泛的客户需求。在 Jina Embeddings 英语向量模型突破百万下载后,今天,我们正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。

2024-01-29 18:33:21 1056

原创 喜讯!Jina AI 荣登三大中国技术先锋年度榜单

中国技术先锋年度评选至今已走过了十一个年头,从最早的TopWriter评选,到中国技术品牌影响力企业,再到 4 年前初次发起的中国开源先锋 33 人以及 2021 年首发的中国开源码力榜。我们密切关注着数字经济蓬勃发展的背后,为推动数字化、信息化与智能化进程所做出的巨大努力的企业和个人。他们面对不断变化的外部环境,扎根行业,他们信奉技术力量,敢于技术创新,践行技术信仰,他们是技术先锋,探索改变...

2024-01-24 19:11:04 403

原创 中英双语8K向量大模型新鲜出炉,企业出海必备!

自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的预训练、一阶...

2024-01-10 19:37:15 1202

原创 一张地毯,能讲出怎样的产品故事?

AKIA 地毯工坊是一家集当代艺术与设计织造相融的地毯品牌商,历经 15 年发展,已在高端地毯行业站立脚跟。作为产品经理,Kevin 一直以来对地毯有着深厚的感情。他认为地毯不仅是家居装饰品,更是艺术品。它承载着设计师的创意和匠心,也传递着品牌的故事和情感。然而,如何让地毯“说话”,让消费者更深入地了解地毯背后的故事和意义,一直是地毯品牌商面临的挑战。于是,AKIA 地毯工坊决定引入 AI 产品来...

2023-12-28 11:41:02 965

原创 来自开发者的点赞,Jina AI 入选 2023 中国技术品牌影响力企业榜

2023 年 12 月 26 日,中国技术先锋年度评选 | 2023 中国技术品牌影响力企业榜单正式发布。作为中国领先的新一代开发者社区,SegmentFault 思否依托数百万开发者用户数据分析,各科技企业在国内技术领域的行为及影响力指标,最终评选出 30 家上榜企业。Jina AI 非常荣幸能被认定为 2023 年中国技术品牌影响力企业之一,这不仅是对我们在多模态人工智能领域技术创新的认可,也...

2023-12-26 13:48:08 353

原创 EMNLP 2023 亮点回顾:大模型时代下的 NLP 研究

EMNLP 2023 精华总结,Jina AI 带你走进前沿,全面回顾!

2023-12-20 23:05:08 1834

原创 Jina AI 的 8K 向量模型上线 AWS Marketplace,支持本地部署!

在当前多模态 AI 和大模型技术风头正劲的背景下,Jina AI 始终领跑于创新前沿,技术领先。2023 年 10 月 30 日,Jina AI 隆重推出 jina-embeddings-v2,这是全球首款支持 8192 输入长度的开源向量大模型,其性能媲美 OpenAI 的闭源 text-embedding-ada002。如今,jina-embeddings-v2 正式登陆 AWS Market...

2023-11-21 19:01:55 987

原创 11月24-25号,来机器之心 AI 论坛深度探讨大模型时代的向量数据库

目前检索增强生成(RAG)已成为当下大模型领域内落地最多也最迫切的领域之一,然而如何用 RAG 系统搭建企业知识库,其技术实现过程中容易走哪些弯路;从数据提取、索引、检索再到生成,如何选择合适的组件并组合以实现最佳的检索性能等等都是技术应用和行业发展的阻碍。图源公众号:土猛的员外尤其在 Embedding 向量模型这一关键组件上,当我们探索向量模型的选择时,我们会发现大多数开源向量模型只支持最大 ...

2023-11-20 18:07:55 169

原创 零门槛,不等待!立刻领取 Embedding API 密钥及 1 万免费 tokens!

2023 年 10 月 30 号,Jina AI 正式发布了 jina-embeddings-v2,是全球首个唯一支持 8K(8192)输入长度的开源向量大模型,今天,我们趁热打铁,为企业和开发者提供 Embedding API,即插即用!借助该 API,开发者可以用于改进检索增强生成 (RAG) 系统的效果,用以解决大型语言模型的上下文长度限制、幻觉问题和知识注入问题。现在我们提供了其英文版本...

2023-11-06 17:49:33 386

原创 Jina AI 推出全球首款开源 8K 语义向量模型,比肩 OpenAI

有了 jina-embeddings-v2,我们达成了一个重要的里程碑。其中,“8K 长度”和“开源”这两点特别受到业界的瞩目,正如 HackerNews 上读者的评论所言,支持 8k 输入长度在表达能力和计算效率之间取得了可喜的平衡,而其中的关键,就在于 jina-embeddings-v2 独特的优势 ——jina-embeddings-v2 并非对前代模型的简单修订,而是经过了深入研发和优化后的全新设计,我们团队付出了很多努力,从数据收集、处理再到模型调优,使得 v2 模型在性能表现上有了质的飞跃。

2023-10-30 10:54:58 633

原创 Jina AI 推出全球首款开源 8K 向量模型,比肩 OpenAI

作为多模态人工智能技术领域的翘楚,Jina AI 的愿景是铺平通往多模态 AI 的未来之路。今天,Jina AI 在向着该愿景前进的路上,达成了一个重要里程碑。我们正式发布了自主研发的第二代文本向量模型:jina-embeddings-v2,是全球唯一能支持 8K(8192)输入长度的开源向量模型。据 MTEB 排行榜显示,jina-embeddings-v2 与 OpenAI 的专有模型 tex...

2023-10-30 10:01:50 196

原创 DocArray 近期更新:全面支持 Pydantic V2

DocArray 是一个专门为多模态数据的表示、传输、存储和检索而设计的 Python 库。其设计专为多模式人工智能应用程序的开发而量身定制,可保证与广泛的 Python 和机器学习生态系统的无缝集成。在 2022 年 1 月,DocArray 在 Apache License 2.0 下公开分发,并在 LF AI & Data Foundation 成为了一项沙箱项目。GitHub 链接...

2023-10-17 09:00:06 214

原创 一步到位,Jina 近期都更新了哪些新功能

Jina 是一个云原生技术构建的多模态 AI 应用框架。通过 gRPC、HTTP 和 WebSockets 实现服务交互,易于扩展并可快速部署。开发者只需专注于逻辑和算法,无需为底层架构烦心。Jina 支持从本地到 Kubernetes 等高级编排框架的无缝部署,致力于为每位开发者提供先进的云原生技术解决方案,并支持各种深度学习框架和数据类型。GitHub 链接:http://oss.jina.a...

2023-10-17 09:00:06 124

原创 DocArray Updates 0.38+0.39

Pydantic v2 的核心部分采用 Rust 编写,并为 DocArray 提供了显著的性能改进:JSON 序列化速度提高了 240%,并且使用 TorchTensor 等非本地类型验证 BaseDoc 和 DocList 时,速度提高了 20%。如果您使用 Pydantic v2,您需要调整您的 DocArray 代码以适配新的 Pydantic API。如果您希望构建一个不包含此 ID 字段的模型的 API,这可能会出现问题。如果您在您的应用程序中使用了这个方法,请更新您的代码以返回。

2023-10-11 18:07:27 120

原创 Jina 近期更新

当将深度嵌套模式(具有2级或更多级嵌套的DocArray模式)指定为Executor端点的输入或输出,并在Flow中部署了Executor时,Gateway将无法获取有关endpoints及其输入/输出模式的信息。在之前的版本中,当使用 HTTP 协议时,Gateway 会等待直到来自 Executor 的响应的所有分块都已经完成流式传输。更清晰的文档和类型提示:Pydantic 提供了强大的类型推断和自动文档生成功能,使得开发者可以快速了解参数的结构、类型以及可能的取值范围,提高代码的可读性和可维护性。

2023-10-11 17:57:53 70

原创 Jina AI @Slush 上海 地表最酷科技创新大会来啦!

地表最酷的科技创新大会S 创上海 2023The Final Slush Shanghai即将在 9 月 22 - 23 日空降上海Jina AI 受邀参与本次大会,并带来好玩的互动!多种门票限时限量派送中还在犹豫什么!!就等你啦~什么是 S 创 2023 上海大会本次 S 创上海 2023 科技创新大会预计吸引10,000+ 参会者,包括 180+ 演讲嘉宾、1,500+ 初创企业、12,...

2023-09-15 14:50:13 99

原创 用两成数据也能训练出十成功力的模型,Jina Embeddings 这么做

在重新排序任务上, Jina Embeddings 系列模型,特别是“jina-large-v1”和“jina-base-v1”模型,表现出了抢眼的竞争力,超越或等于“gtr-t5-large”和“sentence-t5-xxl”等当前顶尖模型。,就像上面的例子那样,每组数据都有三个部分:一个“锚点”(主句子)、一个“隐含”(和主句子意思相似的句子)和一个“否定”(和主句子意思相反的句子),并将其纳入训练数据中,帮助模型识别和区分语义不一致的表达。这样做既可以加速训练,又确保每个数据集都能得到合适的关注。

2023-09-13 18:49:10 253

原创 用两成数据也能训练出十成功力的模型,Jina Embeddings 这么做

在重新排序任务上, Jina Embeddings 系列模型,特别是“jina-large-v1”和“jina-base-v1”模型,表现出了抢眼的竞争力,超越或等于“gtr-t5-large”和“sentence-t5-xxl”等当前顶尖模型。,就像上面的例子那样,每组数据都有三个部分:一个“锚点”(主句子)、一个“隐含”(和主句子意思相似的句子)和一个“否定”(和主句子意思相反的句子),并将其纳入训练数据中,帮助模型识别和区分语义不一致的表达。这样做既可以加速训练,又确保每个数据集都能得到合适的关注。

2023-09-13 18:47:37 271

原创 SceneXplain 图片叙事升级:如何让图片听得到

‍SceneXplain 是一个由多模态 AI 驱动的产品服务,它不仅提供一流的图像和视频标注解决方案,还具备卓越的多模态视觉问答能力,为用户解锁视觉内容的全新维度。在《图像描述算法排位赛》中,我们探讨了图像描述(Image Caption)算法如何能够解码和诠释复杂的视觉信息。这些算法不仅仅地告诉你“图中有一个苹果”,更能深入到场景的分析,描述为“一个洒满阳光的窗台上,熟透的红苹果鲜艳而饱满,...

2023-08-30 20:33:24 247

原创 Jina AI 受邀出席 WAIC 2023「科技无障碍」论坛,与行业专家共话 AI 普惠未来

Jina AI 致力于用多模态AI技术打造更好的无障碍数字化的平权体验

2023-07-10 18:21:16 1645

原创 多模态超省钱!JinaChat 面向开发者的大模型服务

AIGC时代的悖论:人人都是开发者,结果开发者一分钱没赚到,模型 API 服务商赚个盆满钵满。那么JinaChat是如何破局的。

2023-06-28 13:23:40 202

原创 多模态超省钱!JinaChat 面向开发者的大模型服务

2023年6月25日 Jina AI 发布了 JinaChat,一个面向开发者和终端用户的多模态大模型API。传统大型语言模型往往将竞争力建立在「参数多」和「刷分强」的基础上,然而对于应用开发者来说,传统模型商的 API 并不能很好地让开发者低成本的实现解决方案。结果就产生了AIGC时代的悖论:人人都是开发者,结果开发者一分钱没赚到,模型 API 服务商赚个盆满钵满。那么今天就让我们看看JinaC...

2023-06-27 19:47:55 153

原创 肖涵博士和全球专家于 CVPR2023 温哥华会议 线上分享神经搜索的实践应用

神经搜索,也就是在深度嵌入空间中高效搜索相似项的技术,它是处理大型多模态集合的基石。随着像基础模型和提示词工程这样的强大技术的出现,高效神经搜索变得越来越重要。明早六点,在 CVPR2023 温哥华的神经搜索实践应用专题讲座里, Jina AI 创始人兼 CEO 肖涵博士、东京大学讲师松井裕介和哥本哈根信息技术大学 Martin Aumueller 三位专家将共探神经搜索的实践应用与未来展望。...

2023-06-19 19:47:03 123

原创 极客故事|AI Hackathon:从每一个微小的时刻开始

上周末,由 SegmentFault 思否和 ONES 主办,SegmentFault AI Hackathon 杭州站暨思否 11 周年特别活动在杭州圆满结束。大赛延续 Hack with AI, Rebuild Everything with AI 的主题,鼓励开发者使用 Generative AI 技术构建创新应用,以解决实际问题。Jina AI 作为本次大赛的技术支持合作伙伴为选手们提供了SceneXplain.jina.ai(以图生文)

2023-06-19 11:22:34 269

原创 思否黑马圆满收官,28 支队伍创意使用 Jina AI 三款 AIGC 装备!

将“世界”解构成“场景”,“场景”解构成“智能体(AI NPC)、素材、剧情”,AI 迪生团队利用 AI 技术模拟真实或虚拟世界的交互,生成不同的剧情和体验,让⽤户低成本构建并分享属于⾃⼰的剧情互动的世界,同时体验他人世界或者超现实世界。灵拓是一款基于图片识别和 GPT 的自然语言识别能力,为社交网络博主提供创作灵感,进行内容管理的工具,通过长期大量的人机交互,把一个人在各种时间地点需要生产的内容、主题风格进行训练,最终让这款应用成为大家的虚拟经纪人,帮助自己更高效地完成分享,降低自媒体行业门槛。

2023-06-13 18:37:58 444

原创 5.28 深圳活动|Jina AI 生态助力云原生场景下的 AIGC 应用开发

本次峰会的人工智能论坛将邀请来自不同行业的经验丰富的专家和学者,从 AIGC 的概述和演进、 LLMs 的训练和部署、神经网络量化和压缩、多模态数据训练以及模型的服务封装等 AI 领域的多个新锐话题。

2023-05-23 14:50:25 934

原创 Jina AI全新Inference服务,LangChain开发体验从未如此丝滑

由于 Token 的限制,在开发 LangChain 问答机器人应用时,我们经常需要将文档切割,接着使用分别将分割后的 Document 变成 Embeddings,即向量表示。同时输入的问题,也需要用到变成向量,再根据向量相似度找到最相近的 Embedding,将它们拼接成答案返回。由此可见,一个合适又好用的 Embedding 引擎在 LangChain 应用开发过程中的重要性。Inference 就是由 Jina AI 推出的,旨在为企业和开发者提供。

2023-05-18 18:43:08 893 1

原创 Jina AI全新Inference服务,LangChain开发体验从未如此丝滑

由于 Token 的限制,在开发 LangChain 问答机器人应用时,我们经常需要将文档切割,接着使用Embedding 引擎分别将分割后的 Document 变成 Embeddings,即向量表示。同时输入的问题,也需要用到 Embedding 引擎变成向量,再根据向量相似度找到最相近的 Embedding,将它们拼接成答案返回。由此可见,一个合适又好用的 Embedding 引擎在 L...

2023-05-17 16:42:21 462

原创 活动回顾|多模态 AI 开发者的线下聚会@深圳站(内含福利)

回顾来了! 4 月 22 日,由 Jina AI 和 OpenMMLab 联合主办的「多模态 AI 」Office Hours @深圳站圆满结束,迎来了将近 60 位开发者的热情参与!现场不仅有别开生面的「开发者集市」供大家打卡赢取好礼,更有四场干货满满的分享和 workshop 让大家全方位领略多模态的魅力。今年,Jina AI 还将联手更多社区、去到更多城市,与大家线下见面畅聊。你还希望我们...

2023-04-23 18:14:32 535

原创 Finetuner+:为企业实现大模型微调和私有化部署

如 ChatGPT、GPT4 这样的大型语言模型就像是你为公司请的一个牛人顾问,他在 OpenAI、Google 等大公司被预训练了不少的行业内专业知识,所以加入你的公司后,你只需要输入 Prompt 给他, 介绍一些业务上的背景知识,他就能马上上手干活了。然而,由于这个顾问专家不是你们公司所独有的,我们将利用客户的所在领域的中文语料,采用无监督学习的方式,将根据客户的具体需求和任务设计特定的微调方法和策略,让模型专注学习特定领域的知识,以确保模型在处理该领域的中文任务时能够达到最佳的效果。

2023-04-23 14:22:56 2408 1

原创 图像描述算法排位赛:SceneXplain 与 MiniGPT4 谁将夺得桂冠?

小丑带着他标志性的笑容,手里拿着卡牌,和一个穿着蝙蝠侠服装的女人对時,他们之问的紧张气氛显而易见,但随着蝙蝠俠和猫女一起打牌,气氛出现了意想不到的转折。这幅迷人的插画将观众带入一个想象丰富的世界,在这里人类和拟人化的动物们聚在一起,品着热气腾腾的茶水,享受彼此的陪伴。也就是说,虽然 MiniGPT-4 是一个强有力的竞争对手,但在复杂场景的理解和生成吸引人的图像描述文本方面,它就没有 SceneXplain 算法那么强大了。这要求模型必须具备深入的视觉理解,和生成连贯且符合上下文的文本描述的能力。

2023-04-23 14:12:46 866

原创 图像描述算法排位赛:SceneXplain与MiniGPT-4谁将夺得桂冠?

如果你对 AI 前沿感兴趣,本场「图像描述算法排位赛」绝对是你不能错过的!在这场较量中,SceneXplain 和 MiniGPT-4 将会比试,谁将摘得这场比赛的桂冠????? 直接上手体验:scenex.jina.ai背景介绍在一张图就是一个故事,用 SceneXplain 讲个好故事中,我们介绍了图像描述(Image Caption),简单来说,你给模型输入一张图像,模型输出是一句能够描述图像...

2023-04-21 15:09:13 698

原创 Jina AI 创始人肖涵博士:揭秘 Auto-GPT 喧嚣背后的残酷真相

尽管 GPT-4 相较于 GPT-3.5 有了显著的改进,但其推理能力远非完美,进一步限制了 Auto-GPT 的解决问题的能力。这种低下效率,引发了关于 Auto-GPT 在现实世界生产环境中实用性的质疑,也突显了 Auto-GPT 在为大型问题解决提供可持续、经济有效的解决方案方面的局限性。不得不说,Auto-GPT 在 AI 领域掀起了巨大的波澜,它就像是赋予了 GPT-4 记忆和实体一样,让它能够独立应对任务,甚至从经验中学习,不断提高自己的性能。

2023-04-17 15:38:05 861

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除