DocArray 是处理任何数据类型的一站式解决方案,它将非结构化数据封装成同一种数据结构,使得开发者能够高效地处理、嵌入、推荐、存储和传输数据,为多模态项目的开发工作奠定了坚实的基础。基于强大的数据建模能力,DocArray 可以轻松表示非常复杂的数据结构,并且能直观地表示多模态数据。目前 DocArray 已经支持 Redis,Elasticsearch,Qdrant 等多种存储后台。
在《DocArray:为机器学习而生的数据结构》一文中,Jina AI 高级工程师王峰博士对 DocArray 进行了详细介绍。
💡DocArray 0.17.0 现已正式发布!
本次更新包含 8 个新增功能、2 个性能改进、7 个错误修复以及 2 个文档改进。
点击访问完整版本发布说明[1]
🆕 新增功能
load_uri_to_*
方法现支持透传参数(#540)
load_uri_to_*
方法(如load_uri_to_blob
、load_uri_to_text
等)现在支持透传kwargs
参数,您可以将timeout
参数传递给底层请求方法。
例如:
doc = Document(uri='uri_path')
doc.load_uri_to_blob(timeout=2)
新增在单个 Redis 实例存储多个 DocumentArrays (#540)
现在您可以在单个 Redis 实例中存储多个 DocumentArray,只需要将每个 DocumentArray 设置不同的index_name
,以做区分。
da1 = DocumentArray(storage='redis', config={'host': 'localhost', 'port': 6379, 'n_dim': 128, 'index_name': 'da1'})
da2 = DocumentArray(storage='redis', config={'host': 'localhost', 'port': 6379, 'n_dim': 256, 'index_name': 'da2'})
da3 = DocumentArray(storage='redis', config={'host': 'localhost', 'port': 6379, 'n_dim': 512, 'index_name': 'da3'