jiagu、snownlp、jieba库横向对比 github代码中文NLP资源库:https://github.com/fighting41love/funNLPsnownlp:https://github.com/isnowfy/snownlpHanLP:https://github.com/hankcs/HanLPTHULAC:https://github.com/thunlp/THULAC-PythonJiagu:https://github.com/ownthink/Jiagusnow参考:Python - SnowNLP 情感分析与自定义训练_
构建搜索 API服务 前面我们已完成在Qdrant创建了startups集合,导入了startups_demo.json数据,让我们开始构建神经搜索类。为了处理传入请求,神经搜索需要两件事:1)将查询转换为向量的模型,2)Qdrant 客户端来执行搜索查询。
文本搜索快速实现 然而,由于可能有太多数据无法容纳单个计算机内存,因此该函数将数据上的迭代器作为输入。将对您提供的数据进行编码。您将使用一个名为 的预训练模型all-MiniLM-L6-v2。库可以让您方便地下载和使用许多预训练的模型,例如 DistilBERT、MPNet 等。现在数据已存储在 Qdrant 中,您可以向它提问并接收语义相关的结果。框架使您可以访问常见的大型语言模型,将原始数据转换为嵌入。定义了两个主要框架后,您需要指定该引擎将使用的确切模型。您需要处理您的数据,以便搜索引擎可以使用它。
什么是向量数据库 向量数据库是一种应用在高效存储和查询高维向量的数据库。在传统的OLTP和OLAP数据库中(如上图所示),数据按行和列组织(这些称为表),并根据这些列中的值执行查询。然而,在某些应用程序中,包括图像识别自然语言处理和推荐系统数据通常表示为高维空间中的向量,这些向量加上id和有效负载(Payload),组成我们存储在集合中的元素。在搞清楚向量数据库之前,先需要知道什么是向量(vector)。在AI领域中,向量是一个具有大小和方向的数学对象。它可以用来表示现实世界中的各种事物,例如图像、语音、文本等。在。
ChatGLM 手记 报错:AttributeError: 'ChatGLMTokenizer' object has no attribute 'tokenizer'. Did you mean: 'tokenize'?解决办法:报错的transformers版本 transformers==4.34.0。修改后的transformers版本transformers==4.33.2。
12 要素 12 Factor docker的dockerfile,php的composer.json,python的requirements.txt等依赖关系声明。12-Factor 应用的开发人员应该反对在不同环境间使用不同的后端服务,本地环境,测试环境,预发布环境与线上环境应尽可能的接近。将不同的工作分配给不同的 进程类型 ,比如web任务,和常驻内存的worker,开发者可以根据类型进行构建扩容。一个应用,一个基准代码git仓库,多个环境版本部署(prod,staging,develop)尽可能的保持开发,预发布,线上环境相同。
使用Grpc实现高性能PHP RPC服务 其中,创建了一个 Grpc 客户端,并传入服务端地址和端口,以及相关证书信息。接着创建了一个 Request 对象,设置了其 message 属性,并调用了 Grpc 服务端内部的 SayHello 方法,获得响应结果并输出。其中,GrpcService 继承了生成的 Grpc 服务端代码中的 GrpcServiceServer 类,并实现了 SayHello 方法。在客户端代码中,需要先创建一个 Grpc 客户端,并调用服务端的 SayHello 方法。在服务端代码中,需要实现定义的服务接口。
qdrant 手记 github: GitHub - qdrant/qdrant: Qdrant - High-performance, massive-scale Vector Database for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/GitHub - qdrant/qdrant-web-ui: Self-hosted web UI for Qdrant文档:Introduction | 🦜️🔗
git stash命令详解 https://www.cnblogs.com/grimm/p/10550438.htmlhttps://www.cnblogs.com/grimm/p/10550438.html
docker内存清理 docker stats 命令可以帮助我们查看运行中的 Docker 容器的内存、CPU 使用情况。可以获得容器内部的内存使用量、CPU 总使用百分比、均值、最大、最小使用量等信息。使用 docker stats 命令。Docker内存占用大。
Linux服务器占用处理手记 ps命令是最基本同时也是非常强大的进程查看命令,使用该命令可以确定有哪些进程正在运行和运行的状态、进程是否结束、进程有没有僵死、哪些进程占用了过多的资源等等,总之大部分信息都是可以通过执行该命令得到的。ADDR 这个是 kernel function,指出该程序在内存的那个部分。free命令可以显示当前系统未使用的和已使用的内存数目,还可以显示被内核使用的内存缓冲区。top 运行中可以通过 top 的内部命令对进程的显示方式进行控制。然后通过pmap查看对应PID的详细信息,报告进程的内存映射关系。