自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(847)
  • 资源 (1)
  • 收藏
  • 关注

原创 stable-diffusion-webui版本更迭

stable-diffusion-webui安装记录之第二次踩坑记录。

2023-07-19 15:04:48 1356

原创 基于清华chatglm-6b模型的向量化检索问答

基于本地知识库的智能问答。

2023-06-13 16:18:35 1563

原创 stable-diffusion-webui服务器centos部署实践(成功)

stable-diffusion-webui部署使用,生成更优秀的图片。

2023-05-22 11:52:37 1938 1

原创 优秀图片生成参数-stable-diffusion-webui

stable-diffusion-webui优秀生图来了。

2023-05-18 19:57:08 825

原创 stable- diffusion新版本V2效果有提升吗?

stable- diffusion V2 就丝滑好用了吗?

2023-04-21 19:50:38 1579

原创 对话大模型体验(最后附源码)

chatgpt国内版本初步上线(仅供参考)

2023-03-15 15:42:43 1216 1

原创 sentence Bert解读及代码示例

SBERT论文详解并附代码。STS任务

2022-12-08 23:24:37 1341 4

原创 Bert论文解读及相关代码实践

bert论文解读及微调方法

2022-12-08 12:31:29 783

原创 信息抽取/实体关系抽取之UIE

飞酱NLP之信息抽取,知识抽取,关系抽取UIE

2022-12-06 16:34:12 4964 2

原创 fastTEXT论文解读并附实例代码

fastTEXT如何做压缩的

2022-12-03 16:39:53 926

原创 NLP基本业务范围之二

NLP基本业务:阅读理解,因果模型,文本生成,翻译

2022-12-02 15:12:20 1330

原创 NLP基本业务范围

NLP基本业务,纠错,掩蔽词MASK,NER,情感分析,文本摘要

2022-11-30 19:19:52 746

原创 fastTEXT入门自然语言处理NLP

fastTEXT自然语言处理,词向量,文本分类

2022-11-27 23:11:29 875

原创 告诸位技术同胞大佬!!!

近日,发现其他网站大量复制粘贴我这里的博文,既不注明原文链接,也没有注明作者,这样的网站毫无底线,完全是流氓网站。鉴于这种情况的出现,本人今天以后的博文全部只能粉丝可见。下面我要挨个投诉,申诉,直到删除复制的我的博文,不限于起诉维权,反正一无所有,咱就死磕到底!!!For Video Recommendation in Deep learning QQ Group 277356808For Speech, Image, Videoin deep learning ...

2020-06-05 10:12:14 1240 1

原创 opencv实现给图像加上logo图像

要用Python和OpenCV给图片加上logo,可以按照以下步骤实现:读取logo和image图片。调整logo的大小以适应image。将logo放置在image的指定位置。将logo和image合并。以下是实现代码:import cv2# 读取logo和image图片logo = cv2.imread('logo.png', cv2.IMREAD_UNCHANGED) # 读取带透明通道的logo# 检查图片是否成功读取print("图片读取失败,请检查文件路径是否正确。

2024-12-13 13:49:26 859

原创 faiss创建索引的方法及介绍

结合了 IVF、HNSW 和 PQ 三种索引技术,适用于超大规模高维向量数据的快速检索。通过合理设置参数,可以在保证搜索精度的同时,提高搜索速度。

2024-12-09 11:28:59 42

原创 numpy 计算两组向量是否相等,以及在一定误差内相等

如果你需要更灵活的误差检查,可以使用函数,并结合numpy.all来检查所有元素是否在一定误差内相等。# 自定义误差检查print(close) # 输出: True:检查两个数组是否完全相等。:检查两个数组在一定误差内是否相等。:检查两个数组的每个元素在一定误差内是否相等。:检查两个数组的每个元素是否相等。根据你的需求选择合适的方法来检查向量是否相等或近似相等。

2024-12-03 15:09:03 275

原创 faiss 报错Faiss assertion ‘err == CUBLAS_STATUS_SUCCESS‘ failed in void faiss::gpu::runMatrixMult(fais

尝试了重装cuda及driver,还有nvcc都没解决问题,包括如下采用conda安装的方法都没成功。方法就是直接pip安装faiss-gpu=1.7.3。后来发现这是Ubuntu的bug,采用。# 安装faiss的GPU 版本。

2024-11-29 17:02:07 292

原创 Ubuntu nvidia-cuda-toolkit 升级

通过以上步骤,你应该能够成功升级并确保其与 NVIDIA 驱动程序兼容。如果在升级过程中遇到问题,建议查阅相关文档或寻求社区支持。

2024-11-28 11:20:59 500

原创 python 获取现在时间的年月日时分秒

print(f"当前时间是: {year}年{month}月{day}日 {hour}时{minute}分{second}秒")对象,该对象包含了当前的日期和时间信息。你可以通过访问该对象的属性来获取具体的年、月、日、时、分和秒。formatted_time = now.strftime("%Y年%m月%d日 %H时%M分%S秒")模块来获取当前的日期和时间,包括年、月、日、时、分和秒。要将上述结果形成一个字符串,你可以使用字符串格式化方法。分别表示年、月、日、时、分和秒。# 提取年、月、日、时、分、秒。

2024-11-19 10:59:03 463

原创 shell命令统计文件行数之和

你可以使用以下 命令来统计每个 文件的行数,并将其加和在一起:find . -name "*.txt" -not -name "*.json" -exec wc -l {} + | awk '{sum += $1} END {print sum}'解释: : 从当前目录开始递归查找文件。 查找所有以 结尾的文件。 排除以 结尾的文件。: 对找到的每个文件执行 命令, 用于统计文件的行数。 表示当前找到的文件。 表示将所有文件一次性传递给 ,而不是逐个传递。: 用于处理 的输出。 将每

2024-11-18 15:37:30 132

原创 背景替换大模型图像处理gradio部署服务

inferencedata = {input_url],"label": {"text": "原图","style": {},},],功能: 该函数接收两张图像(人像和背景),使用模型对输入的人像进行抠图,然后将抠图结果与背景图像进行合成,生成新的图像。步骤检查输入: 确保输入图像不为空。图像编码: 将输入图像编码为URL。构建请求数据: 构建包含任务类型、输入图像URL等信息的JSON数据。调用模型服务: 使用函数调用模型服务进行抠图。读取结果。

2024-11-15 16:15:49 966

原创 抠图服务大模型处理gradio部署服务

解读: 将多个图像变换操作组合在一起。: 将图像调整为 1024x1024 像素。: 将图像转换为 PyTorch 张量。: 对图像进行归一化处理,使用 ImageNet 的均值和标准差。解读fn(image): 这是一个用于图像分割的函数。: 加载图像并将其转换为 PIL 图像对象。: 将图像转换为 RGB 格式。: 获取图像的尺寸。: 保存原始图像的副本。: 对图像进行预处理,并将其转换为模型输入格式。: 禁用梯度计算,以节省内存并加速推理。: 使用模型进行预测,并将结果转换为 CPU 上的张量。

2024-11-15 16:07:35 616

原创 OSError: [Errno 36] File name too long

错误通常发生在文件名或路径长度超过操作系统或文件系统允许的最大长度时。这个限制是由操作系统和文件系统类型决定的。

2024-11-08 18:00:35 220

原创 E: Unable to locate package libaio-devE: Unable to locate package libgoogle-perftools-devE: Unable

group 868373192 second group 277356808The error messages you're seeing indicate that the package manager () is unable to find the packages , , , and . This can happen for a few reasons, such as the packages not being available in the default repositories f

2024-11-08 11:37:35 805

原创 anaconda 安装笔记Ubuntu20

在 Ubuntu 20.04 上安装 Anaconda 的特定版本(例如 4.2)可以通过以下步骤完成。请注意,Anaconda 4.2 是一个较旧的版本,可能不包含最新的功能和安全更新。如果你需要最新的功能和安全性,建议安装最新版本的 Anaconda。

2024-11-08 11:26:17 426

原创 中文文章进行加密编码及解码的方法python实现

Base64:适合简单的编码和解码,适用于文本传输。AES:适合对称加密,适合对数据进行加密和解密。RSA:适合非对称加密,适合加密和解密数据。MD5:适合生成数据的摘要,用于验证数据完整性。根据具体需求选择合适的加密方法。

2024-11-07 17:40:01 85

原创 faiss里面SQ量化4bit是啥意思?具体举例并解释

4-bit SQ量化是一种通过将浮点数映射到4-bit整数来减少存储和计算开销的技术。虽然它会引入一定的精度损失,但在许多情况下,这种损失是可以接受的,尤其是在需要处理大规模数据集时。8bit量化呢?8-bit量化(8-bit Scalar Quantization)是另一种常见的量化技术,它将浮点数向量转换为8-bit整数向量。与4-bit量化相比,8-bit量化提供了更高的精度,因为它使用更多的比特来表示每个浮点数。

2024-11-07 17:04:18 1000

原创 Mac电脑如何解压rar压缩包

是最简单且免费的选择,适合大多数用户。Keka也是一个很好的免费选择,支持多种压缩格式。是一个付费选项,但提供了强大的功能。终端方法适合喜欢使用命令行的用户。

2024-11-07 11:08:58 1788

原创 faiss多GPU量化压缩极限4bit

目前faiss多卡压缩的极限,采用ivfPQ只能到8bit,而SQ可以到4bit,因此采用后者。注意,上述数据不能分批加载,这就需要大的瞬时空间(内存),bug如下:这个错误表明在使用时,add方法不支持多次调用。要求在添加数据时,所有数据必须一次性添加,而不是分多次添加。为了解决这个问题,我们需要确保在调用add方法时,一次性添加所有数据。

2024-11-06 15:11:23 678

原创 10亿级别向量数据进行faiss-gpu实现快速召回

要使用FAISS-GPU进行10亿向量数据的检索,并且采用IVFPQ压缩量化方法,以下是一个详细的Python实现示例。这个示例假设你已经安装了FAISS-GPU,并且有4张GPU可用。

2024-11-06 11:15:47 432 1

原创 量化压缩后的index:faiss新版使用方法

QT_4bit提供了最大的压缩比(8:1),适用于内存受限的场景。QT_8bit和提供了中等压缩比(4:1),适用于需要平衡内存占用和搜索精度的场景。除了标量量化(Scalar Quantization, SQ)之外,FAISS 还提供了其他几种压缩和量化方法,以进一步减少内存占用并加速搜索。除了标量量化(SQ)之外,FAISS 还提供了乘积量化(PQ)、倒排乘积量化(IVF + PQ)、残差量化(RQ)和混合量化等多种压缩和量化方法。这些方法可以在减少内存占用的同时,保持或优化搜索精度。

2024-11-05 18:21:43 173

原创 faiss 用于检索10亿向量(维度768)的方法

通过使用并结合标量量化和倒排索引技术,我们可以在内存占用不超过 100G 的情况下处理 10 亿个 768 维的向量。通过调整nlistnprobe等参数,并采用分批添加数据的方法,可以进一步优化内存使用。注意,本文重点在讨论,是否可以分批加载数据?这是个关键点,如果可以分批加载,那么将会极大节约内存空间(避免瞬时需要超级大的内存空间)。下面进行测试,仅用flat测试。

2024-11-05 17:05:51 328

原创 elastic search查找字段的方法

• http://localhost:9200/my_index/_doc/ien9292voewew:这是请求的 URL,其中 my_index 是索引名称,_doc 是文档类型(在 Elasticsearch 7.x 及更高版本中,文档类型默认为 _doc),ien9292voewew 是文档的 ID。• http://localhost:9200/my_index/_search:这是请求的 URL,其中 my_index 是索引名称,_search 表示执行搜索操作。

2024-11-04 17:24:45 421

原创 faiss.IndexScalarQuantizer使用方法

是一种高效的索引类型,适用于需要减少内存占用和加速搜索的场景。通过使用标量量化技术,它能够在保持较高搜索精度的同时,显著减少内存占用和搜索时间。

2024-11-04 14:58:39 83

原创 faiss用于大数据量的向量检索

是一种高效的索引类型,适用于大规模向量数据的近似最近邻搜索。通过结合倒排索引和标量量化,它能够在保持较高搜索精度的同时,显著减少内存占用和搜索时间。

2024-11-04 14:36:34 248

原创 远程办公的VPN怎么使用?

在家怎么办公?通过vpn访问公司才能访问的服务器是一种方法,也可以science上网。VPN方法:方案。远程办公时,VPN(虚拟专用网络)是连接到公司内部网络的关键工具。

2024-11-04 13:54:21 107

原创 vm.max_map_count 表示啥意思啊?通俗易懂点,有单位么?262144表示啥意思?

是 Linux 内核的一个参数,用于限制一个进程可以拥有的最大内存映射区域数量。Elasticsearch 需要较高的值来处理大量数据文件。通过临时或永久设置的值,你可以解决 Elasticsearch 启动失败的问题。是一个无单位的整数值,它表示一个进程可以拥有的最大内存映射区域数量。这个值是一个纯粹的计数,没有单位。Elasticsearch 需要处理大量的数据文件,并且为了高效地访问这些数据,它会使用内存映射技术。

2024-11-01 17:57:52 1116

原创 ERROR: [1] bootstrap checks failed. You must address the points described in the following [1] lines

通过临时或永久设置的值,你应该能够解决太低的问题。确保系统的其他资源限制也足够高,并查看详细的日志文件以获取更多信息。

2024-11-01 17:41:03 1036

原创 OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x0000001001000000, 33235664896, 0) failed

Elasticsearch 启动失败通常与内存不足有关。通过调整 JVM 参数、增加系统内存或交换空间,以及检查系统资源使用情况,可以解决这个问题。如果问题仍然存在,建议查看详细的错误日志以获取更多信息。

2024-11-01 17:07:45 991

brew安装shell文件,直接bash执行即可

brew安装shell文件,直接bash执行即可,mac电脑专用,其他系统不支持哈。

2024-07-17

河南省⼯业学校校区⼯作⼈员试题卷子往年题库

源于互联网,自己下载的,其中内容应该靠谱。

2023-12-28

stable-diffusion-webui启动文件

stable-diffusion-webui启动文件,用于启动环境中的参数输入,与cmd参数输入相结合,其他参数修改,包括pip,git环境修改,git的环境请手动下载,这里注释掉了。

2023-07-19

requirements.txt of the stable-diffusion-webui

stable-diffusion-webui的pip 安装记录,直接由pip freeze而来,比较全面,而且基本上都是必须的环境,多余的环境很少。直接pip install -r the_file.txt 即可,相当方便。

2023-07-19

stable-diffusion-webui安装包,亲测有效

stable-diffusion-webui安装包,亲测有效。非常可行的包,不过环境需要自己安装的,安装一下吧。有些环境在repo里安装即可。

2023-07-19

stable-diffusion-webui启动文件launch.py

用于启动stable-diffusion-webui,修改后的脚本,第一版本,可行,启动无误。无需全局环境,可以像其他库一样设置自己的虚拟python环境,非常nice的,省时省力。

2023-07-19

diel-data数据集,用来实验与验证GCN模型的,推荐算法中的GCN模型,当然也是最初的分类模型

diel_data数据集,用来实验与验证GCN模型的,推荐算法中的GCN模型,当然也是最初的分类模型,该模型数据的难点在于构建网络节点数据,具体可以看下GCN中的解读。或者参考我的博文GCN的解读。

2023-06-22

Avazu推荐算法必备数据集,无论是召回还是排序都是必备的数据集

Avazu推荐算法必备数据集,无论是召回还是排序都是必备的数据集。 版本x1,即可用于推荐算法中的指标对比,也可以用来检验自己的算法是否超过前人的研究成果,是用来发paper的必备测试数据集,比如DeepFm,din,等,都可以用来测试,实践。不妨下载来看看数据格式,这里面的数据集是大多数的通用的数据。 另外,数据集具有验证集和测试集,可用来训练中和训练后进行测试,当然也可使用其中一个作为测试。 推荐算法,模型必备数据集,wide&deep,LR,DCN,图模型,等。

2023-06-22

cora-v2数据集,用于推荐算法中的GCN进行测试

cora_v2数据集,用于推荐算法中的GCN进行测试 也可以用于推荐算法中其他方法的测试,作为经典的数据集,具有对比的作用。

2023-06-22

python库peft安装包

可以采用pip安装的peft安装包,包括makefile文件,此库非常有用,依赖库有torch及python,一些版本号可以自己修改,具体可查看里面的文件。该安装包用于大模型微调使用,是必不可少的依赖。

2023-05-05

自然语言处理用的二分类微调数据SST,可以参考huggingface来具体操作训练

自然语言处理,预训练模型微调专用数据,SST2 文本分类,情感分类等等类似下游任务都可以用。

2023-02-14

用于NLP预训练模型的微调,应用场景包括language model 和text generation 自然语言处理必备资源

英文维基文本,包含训练集,测试集,验证集。 来吧,下载训练自己的模型,微调下吧。

2023-02-14

attention is all you need解读及pytorch代码

Attention is all you need 解读及详细代码,每个模块都有注释,代码详细易懂。哈佛出品,值得阅读。Transformer最基本的结构,也是BERT的基本结构,NLP和推荐都需要用到。

2022-12-06

gcn/gat模型中预处理数据用的脚本 如何把数据整成gcn/gat模型需要的数据格式 process

图模型中数据预处理所用的脚本, 包括dgl,gcn,gat都是用的这个预处理过程。

2022-12-06

sample_movielens_ratings.txt

采样的movielens数据集,一般用来推荐模型中的测试。标椎格式txt可以尝试下自己的新模型,这种数据一般用于有评分数据的模型,用于矩阵分解之类的模型。如果是点击与否的模型则不适用。推荐算法模型可以查看我的相关博文,关注即可。多谢点赞。也可以加群获取更多资讯。群里有各种大佬,都是算法专家。

2022-09-17

视频中的音频提取test.mp3

视频中音频提取技术,ffmpeg是底层实现工具,这是最基本的,采用py处理得到,简单方便,但实时性有点差,取决于个人所用工具。

2019-11-30

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除