自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(511)
  • 资源 (3)
  • 收藏
  • 关注

原创 AgentScope 初体验

AgentScope是以开发者为中心的多智能体平台,它使开发者能够更轻松地构建基于大语言模型的多智能体应用程序。

2024-09-10 18:55:49 1065

原创 通过API使用通义千问

使用非流式输出方式需要等待模型生成结束后再将生成的中间结果拼接后返回,而流式输出可以实时地将中间结果返回,可以在模型进行输出的同时进行阅读,减少等待模型回复的时间。当使用Linux系统(如Ubuntu、CentOS等)中的命令行添加DashScope的API-KEY为环境变量时,可以选择在当前会话添加临时性环境变量,或对当前用户添加永久性环境变量。如果想对当前用户添加永久性环境变量,使得在该用户的新会话中也可以使用该环境变量,可以把以下命令语句复制并添加到。信息,更符合日常交流的场景。

2024-09-10 15:42:03 1055

原创 KL 散度(python+nlp)

KL 散度(Kullback-Leibler divergence),也称为相对熵,是衡量两个概率分布之间差异的一种方式。KL 散度是非对称的,也就是说,P 相对于 Q 的 KL 散度通常不等于 Q 相对于 P 的 KL 散度。

2024-08-08 17:18:15 579

原创 使用 Quart (Flask 的异步版本) 和 FastAPI 构建异步服务

在本示例中,我们展示了如何使用 Quart 和 FastAPI 构建异步 Web 服务器,并通过客户端异步获取数据。这些代码示例涵盖了多种请求方式和数据处理方法,适用于高并发和异步处理的场景。pydantic 是一个数据验证和设置管理的 Python 库,提供了基于类型注解的数据验证功能。它主要用于定义和验证数据模型,确保数据符合预期的格式和约束。

2024-08-05 15:26:09 787

原创 python后端 启用 gzip 压缩响应体

【代码】python后端 启用 gzip 压缩响应体。

2024-08-05 15:00:01 368

原创 query改写微调(T5 + DPO)

将原始的 CSV 文件转换为 T5 模型可以接受的格式。T5 模型的训练通常需要将数据转换为特定的文本输入格式,通常是 “source_text -> target_text” 的形式。中的数据需要进一步处理才能用于 T5 模型的训练。T5 模型通常需要特定的输入格式和数据预处理步骤来进行有效的训练。数据验证功能通过语义相似度、Jaccard 相似度、BM25 分数和长度差异四种方法,筛选符合质量标准的改写文本。是我们希望模型转换的查询,而。

2024-07-30 17:45:28 1001

原创 RedisSearch(附 python demo 代码)

初始化和配置:提供了灵活的配置选项来连接 Redis 服务器,并且支持设置索引的定义。文档操作:提供了添加、批量添加、更新和删除文档的操作,确保对索引数据的全面管理。查询操作:支持复杂的搜索查询,包括得分、负载和排序等功能,增强了搜索的灵活性。索引管理:提供了删除索引的功能,确保可以清理和重建索引。这个类提供了一个高效、灵活的接口来使用 Redisearch 进行全文搜索和索引管理,适用于多种使用场景。bge-large"""初始化 BM25 模型。:param documents: 文档列表。

2024-07-30 16:05:07 971

原创 几种常用的位置编码介绍及pytorch实现

我借给你300块与你借给我300块具有完全不同的含义。对于Transformer模型来说,由于Attention模块的无序性(无法区分不同位置的Token),必须加入额外的信息来记录顺序,这里引入了位置编码。位置编码从实现方式上大致可以分为2类:绝对位置编码: 将位置信息融入到输入中相对位置编码: 微调Attention结构,使其可以分辨不同位置的Token。

2024-07-29 10:23:04 854

原创 A* - 路径规划

实现了无向图的数据结构,支持添加节点和边。每个节点是一个坐标点,边包含了连接两个节点的代价。

2024-07-23 16:54:47 260

原创 PDF-Extract-Kit (PDF内容抽取开源项目)

PDF文档中包含大量知识信息,例如文本、表格、图像、公式等。此外,PDF的文档布局也相当复杂,页眉、页脚、表格标题、图片标题等等,提取高质量的PDF内容并非易事。布局检测:使用LayoutLMv3模型进行区域检测,如图像表格标题文本等;公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;公式识别:使用UniMERNet进行公式识别;光学字符识别:使用PaddleOCR进行文本识别;注意: 由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此。

2024-07-19 11:57:30 1327 8

原创 ‘wget‘ 不是内部或外部命令,也不是可运行的程序

在Windows环境下创建了虚拟环境并安装了wget包,但在使用该命令的时候仍然报错,‘wget’ 不是内部或外部命令,也不是可运行的程序。

2024-07-10 17:55:08 690

原创 hf-mirror (huggingface 的国内镜像)

官网:网站域名,用于镜像域名。作为一个公益项目,致力于帮助国内AI开发者快速、稳定的下载模型、数据集。

2024-07-10 14:04:07 15932 8

原创 两张图片合并(右上角添加水印,兼容矢量图)保留原来的颜色

使用了泊松克隆(Poisson Cloning),会根据周围的颜色信息进行颜色调整,使得融合后的区域更加自然,但这也可能导致颜色发生变化。: 进行添加logo(水印)由于使用了。logo 都花了,颜色也不对了。

2024-07-08 16:34:31 351

原创 python(opencv2、PIL)将图片透明背景转换成白色背景的两种方法

这两种方法都可以将透明背景转换为任意颜色背景,并支持在任意颜色背景之间进行转换。可以根据具体需求选择合适的工具和方法。通过上述封装函数,可以更方便地将带透明背景的图片转换为白色背景的图片。OpenCV方法函数封装。

2024-07-08 14:40:47 1098 1

原创 Qanything-docker-compose yaml文件(内含GPU 配置,备用学习)

【代码】Qanything-docker-compose yaml文件(内含GPU 配置,备用学习)

2024-07-05 11:31:57 466

原创 显卡算力 - json

【代码】显卡算力 - json。

2024-07-05 11:24:42 135

原创 Request safe_get 小工具

接口安全获取请求参数小工具( python)

2024-07-05 10:53:26 183

原创 function-calling初体验

函数调用(Function-Calling)允许使用自定义功能扩展LLM,使它们能够根据自然语言指令形成对外部函数的调用。结构化数据提取使LLM能够从非结构化文本中提取可用信息。Function-calling是LLM接收自然语言查询以及函数描述,并输出可用于调用该函数的字符串的能力。先使用NexusRavenV2-13B 大模型,一个针对函数调用(function-calling)和数据提取进行了微调的开源模型。

2024-07-03 12:07:58 1284

原创 RAG开源项目Qanything源码阅读3-在线推理

项目:https://github.com/netease-youdao/QAnything。

2024-07-03 12:06:36 725

原创 RAG开源项目Qanything源码阅读2-离线文件处理

开源

2024-07-02 16:15:39 699

原创 RAG开源项目Qanything源码阅读1-概述+服务

相比于论文中的对RAG的探索,实践更讲求实用性和全链路的完整性,类似文档处理、精排等逻辑在现实中的使用,一个很快的学习方式就是看开源项目,随着RAG项目的逐渐成熟,完整的开源项目也逐渐变多,包括langchain在内,类似Qanything、RAGflow、fastRAG。RAG全流程都具备,从文件上传、处理到在线推理、排序等,关键模块都是有的,而且中文注释,注释和文档也比较完善,很适合学习。包括完整的前后端体系。

2024-07-02 11:31:14 972

原创 AutoGen 两个agent讲相声

注意,你想让那哪个先开始就从哪个agent 初始化一个 initiate_chat ,然后设置对话者(recipient),然后起个话头,然后设置下最多对话几轮就可以开始一个简单的相声对话了。如果我们想记录状态(state),并保持状态(maintain the state),然后让他执行一系列的任务(tasks),我们需要一个不同的方法(approach)现在有了两名相声演员,一个逗哏,一个捧哏,开始欣赏下现挂的相声吧。添加summary 参数,获取更加好的summary。

2024-07-01 20:59:04 1338

原创 无缝合并两张图片(封面右上角添加logo)-- opencv

自己修改对应的路径。这个代码实现的主要函数是cv2.seamlessClone(),这个函数可以根据梯度来调节风格,使得拼接的图像部分不至于那么突兀。

2024-07-01 18:18:52 389

原创 query2doc:用大模型做query检索拓展

这个时候就可以分析bad case。找回链路不信任关键链路漏召回相似度计算有问题的规则心法利器[37] | bad case治疗术:认知篇心法利器[38] | bad case治疗术:现状篇心法利器[39] | bad case治疗术:分析篇心法利器[40] | bad case治疗术:解决篇心法利器[32] | 一些印象深刻的bad caseML&DEV[13] | bad case分析NLP.TM[22] | 如何修正NLP问题的bad case。

2024-06-24 16:22:02 1103

原创 libGL.so.1: cannot open shared object file: No such file or directory

将/path/to/libGL.so.1替换为libGL.so.1文件的实际路径。然后,重新运行Python程序,看看问题是否得到解决。

2024-06-12 17:46:46 1141

原创 大模型PEFT(二) 之 大模型LoRA指令微调学习记录(qlora 在最后有补充,流程差不多)

增加额外参数:PrefixTuning、Prompt Tuning、Adapter Tuning及其变体。选取一部分参数更新:BitFit。引入重参数化混合高效微调。

2024-06-09 16:50:35 1351

原创 python-docx给word 添加封面

【代码】python-docx给word 添加封面。

2024-05-31 17:53:28 210

原创 kmeans 练习(numpy版)

【代码】kmeans 笔试题。

2024-05-30 21:17:22 129

原创 PyMySQL连接池

胡乱抄的,等待实操检验

2024-05-29 18:30:58 1128

原创 python 删除pdf 空白页

【代码】python 删除pdf 空白页。

2024-05-29 17:57:26 465

原创 pydantic.errors.PydanticUserError: If you use `@root_validator`

pydantic的版本问题,将pydantic库的版本降低到1.10.13,pydantic_core等相关依赖库的版本也会自动降低。

2024-05-28 18:51:57 711 3

原创 Transformer模型架构笔记

Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。

2024-05-28 16:11:59 1045

原创 CUDA_VISIBLE_DEVICES‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。

如果为CUDA_VISIBLE_DEVICES 设置了不存在的设备,所有实际设备将被隐藏,CUDA 应用将无法使用GPU设备;如果设备序列是存在和不存在设备的混合,那么不存在设备前的所有存在设备将被重新编号,不存在设备之后的所有设备将被屏蔽。当主机有多个GPU设备时,设置CUDA_VISIBLE_DEVICES 环境变量可以改变CUDA程序所能使用的GPU设备。假如主机中有4块GPU设备,那么这些GPU设备的默认编号为[0,1,2,3],在默认情况下,编号为。”,则设备2,3,0将分别被设置为。

2024-05-28 11:15:24 1383

原创 大模型PEFT(一)之推理实践学习记录

多种模型: LLaMA、Mistral、Mixtral-MoE、Qwen、Yi、Gemmha、Baichuan、ChatGLM、Phi等等。集成方法:(增量)预训练、指令监督微调、奖励模型训练、PPO训练和DPO训练。多种精度:32比特全参数微调、16比特冻结微调、16比特LORA微调和基于AQLM/AWQ/GPTQ/LLM.int8 的2/4/8比特 QLORA 微调。先进算法:GaLore、DORA、LongLoRA、LLaMAPro、LoftQ和Agen微调。实用技巧。

2024-05-27 18:00:45 1824

原创 RAG 评测

生成模块指的是将检索到的文档与查询相结合,形成增强或合合成的输入。这与最终答案或响应的生成不同,后者通常采用端到端的评估方方式。对RAG模型对特定输入生成的最终响应进行评估,涉及模型生成的答案与输入查询的相关性和一致性。

2024-05-23 13:38:51 1169

原创 python-docx 在word中指定位置插入图片或表格

docx库add_picture()方法不支持对图片位置的设置。

2024-05-22 14:45:41 2302

原创 Ubuntu 安装 LibreOffice

下载下来是个压缩包,解压一下(我是windows上下载,解压好又拖到ubuntu上去的,你可以直接wget 下载到ubuntu解压)还可以安装中文离线帮助文件中的所有deb包,哈哈,我没装所以后面转的中文pdf乱码了,不过后面用其他方法弄好了。Libcairo是一个用于创建二维矢量图形的库,是许多图形库(如GTK,Pango,rsvg等)的依赖项。由于 linux 默认没有安装中文字体,所以导出有中文的文件会导致中文乱码。linux 命令改成自己安装的版本,我的是7.6。安装主安装程序的所有deb包。

2024-05-21 17:00:05 2207 1

原创 判断当前系统是linux、windows还是MacOS (python)

在很多情况下,需要在python中获取当前系统的类型,用于判断是unix/windows/mac或者java虚拟机等,python中提供了os.name, sys.platform, platform.system等方式。

2024-05-20 10:30:24 737

原创 PaddleCOR安装过程中问题列表

python paddleocr 增加识别速度的方法。切记长度不要超过 960px。

2024-05-17 11:24:37 351

原创 OCR版面分析-- PaddleOCR(python 文档解析提取)

当内置模型无法满足需求时,需要使用到自己训练的模型。首先,参照模型导出将检测、分类和识别模型转换为inference模型,然后按照如下方式使用。

2024-05-16 18:53:42 2937 1

122.0.6261.57/win64/chromedriver-win64.zip

selenium 谷歌驱动 122.0.6261.57 64系统

2024-02-22

Windows10 修改samba 445 端口为4455 脚本

Windows10 修改samba 445 端口为4455 脚本

2022-09-20

HashMapTest.java

Java 中的Hashmap的使用介绍代码,https://blog.csdn.net/weixin_40959890/article/details/106713471

2020-06-12

IDEA快捷键.pdf

IDEA快捷键,软件自带,打开软件,在工具栏先找到Help,点击,选择Keymap Reference就会出现你的电脑对应的快捷键了 Help->keymap Reference

2020-06-04

ConstantDemo.java

常量:是指在Java程序中固定不变的数据,//输出整数常量 //输出小数常量 //输出字符常量 //输出布尔常量 //输出字符串常量 //输出空常量

2020-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除