- 博客(513)
- 资源 (3)
- 收藏
- 关注
原创 AgentScope : 与CodeAct智能体对话
CodeAct Agent是一个Agent,它不仅可以聊天,还可以为你编写和执行Python代码。在本示例中,将介绍另一种赋予Agent调用工具能力的方法,特别是通过直接向Agent提供工具的相应代码,然后允许Agent独立地使用它们。在工具使用方面,CodeAct Agent还允许Agent使用工具(Tools)来解决问题,但是以不同的方式。
2024-09-29 18:56:30 415
原创 通过API使用通义千问
使用非流式输出方式需要等待模型生成结束后再将生成的中间结果拼接后返回,而流式输出可以实时地将中间结果返回,可以在模型进行输出的同时进行阅读,减少等待模型回复的时间。当使用Linux系统(如Ubuntu、CentOS等)中的命令行添加DashScope的API-KEY为环境变量时,可以选择在当前会话添加临时性环境变量,或对当前用户添加永久性环境变量。如果想对当前用户添加永久性环境变量,使得在该用户的新会话中也可以使用该环境变量,可以把以下命令语句复制并添加到。信息,更符合日常交流的场景。
2024-09-10 15:42:03 6182
原创 KL 散度(python+nlp)
KL 散度(Kullback-Leibler divergence),也称为相对熵,是衡量两个概率分布之间差异的一种方式。KL 散度是非对称的,也就是说,P 相对于 Q 的 KL 散度通常不等于 Q 相对于 P 的 KL 散度。
2024-08-08 17:18:15 907
原创 使用 Quart (Flask 的异步版本) 和 FastAPI 构建异步服务
在本示例中,我们展示了如何使用 Quart 和 FastAPI 构建异步 Web 服务器,并通过客户端异步获取数据。这些代码示例涵盖了多种请求方式和数据处理方法,适用于高并发和异步处理的场景。pydantic 是一个数据验证和设置管理的 Python 库,提供了基于类型注解的数据验证功能。它主要用于定义和验证数据模型,确保数据符合预期的格式和约束。
2024-08-05 15:26:09 916
原创 query改写微调(T5 + DPO)
将原始的 CSV 文件转换为 T5 模型可以接受的格式。T5 模型的训练通常需要将数据转换为特定的文本输入格式,通常是 “source_text -> target_text” 的形式。中的数据需要进一步处理才能用于 T5 模型的训练。T5 模型通常需要特定的输入格式和数据预处理步骤来进行有效的训练。数据验证功能通过语义相似度、Jaccard 相似度、BM25 分数和长度差异四种方法,筛选符合质量标准的改写文本。是我们希望模型转换的查询,而。
2024-07-30 17:45:28 1231 3
原创 RedisSearch(附 python demo 代码)
初始化和配置:提供了灵活的配置选项来连接 Redis 服务器,并且支持设置索引的定义。文档操作:提供了添加、批量添加、更新和删除文档的操作,确保对索引数据的全面管理。查询操作:支持复杂的搜索查询,包括得分、负载和排序等功能,增强了搜索的灵活性。索引管理:提供了删除索引的功能,确保可以清理和重建索引。这个类提供了一个高效、灵活的接口来使用 Redisearch 进行全文搜索和索引管理,适用于多种使用场景。bge-large"""初始化 BM25 模型。:param documents: 文档列表。
2024-07-30 16:05:07 1164
原创 几种常用的位置编码介绍及pytorch实现
我借给你300块与你借给我300块具有完全不同的含义。对于Transformer模型来说,由于Attention模块的无序性(无法区分不同位置的Token),必须加入额外的信息来记录顺序,这里引入了位置编码。位置编码从实现方式上大致可以分为2类:绝对位置编码: 将位置信息融入到输入中相对位置编码: 微调Attention结构,使其可以分辨不同位置的Token。
2024-07-29 10:23:04 1894
原创 PDF-Extract-Kit (PDF内容抽取开源项目)
PDF文档中包含大量知识信息,例如文本、表格、图像、公式等。此外,PDF的文档布局也相当复杂,页眉、页脚、表格标题、图片标题等等,提取高质量的PDF内容并非易事。布局检测:使用LayoutLMv3模型进行区域检测,如图像表格标题文本等;公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;公式识别:使用UniMERNet进行公式识别;光学字符识别:使用PaddleOCR进行文本识别;注意: 由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此。
2024-07-19 11:57:30 2104 8
原创 ‘wget‘ 不是内部或外部命令,也不是可运行的程序
在Windows环境下创建了虚拟环境并安装了wget包,但在使用该命令的时候仍然报错,‘wget’ 不是内部或外部命令,也不是可运行的程序。
2024-07-10 17:55:08 1059
原创 hf-mirror (huggingface 的国内镜像)
官网:网站域名,用于镜像域名。作为一个公益项目,致力于帮助国内AI开发者快速、稳定的下载模型、数据集。
2024-07-10 14:04:07 42211 17
原创 两张图片合并(右上角添加水印,兼容矢量图)保留原来的颜色
使用了泊松克隆(Poisson Cloning),会根据周围的颜色信息进行颜色调整,使得融合后的区域更加自然,但这也可能导致颜色发生变化。: 进行添加logo(水印)由于使用了。logo 都花了,颜色也不对了。
2024-07-08 16:34:31 393
原创 python(opencv2、PIL)将图片透明背景转换成白色背景的两种方法
这两种方法都可以将透明背景转换为任意颜色背景,并支持在任意颜色背景之间进行转换。可以根据具体需求选择合适的工具和方法。通过上述封装函数,可以更方便地将带透明背景的图片转换为白色背景的图片。OpenCV方法函数封装。
2024-07-08 14:40:47 1407 1
原创 Qanything-docker-compose yaml文件(内含GPU 配置,备用学习)
【代码】Qanything-docker-compose yaml文件(内含GPU 配置,备用学习)
2024-07-05 11:31:57 594
原创 function-calling初体验
函数调用(Function-Calling)允许使用自定义功能扩展LLM,使它们能够根据自然语言指令形成对外部函数的调用。结构化数据提取使LLM能够从非结构化文本中提取可用信息。Function-calling是LLM接收自然语言查询以及函数描述,并输出可用于调用该函数的字符串的能力。先使用NexusRavenV2-13B 大模型,一个针对函数调用(function-calling)和数据提取进行了微调的开源模型。
2024-07-03 12:07:58 1358
原创 RAG开源项目Qanything源码阅读3-在线推理
项目:https://github.com/netease-youdao/QAnything。
2024-07-03 12:06:36 881
原创 RAG开源项目Qanything源码阅读1-概述+服务
相比于论文中的对RAG的探索,实践更讲求实用性和全链路的完整性,类似文档处理、精排等逻辑在现实中的使用,一个很快的学习方式就是看开源项目,随着RAG项目的逐渐成熟,完整的开源项目也逐渐变多,包括langchain在内,类似Qanything、RAGflow、fastRAG。RAG全流程都具备,从文件上传、处理到在线推理、排序等,关键模块都是有的,而且中文注释,注释和文档也比较完善,很适合学习。包括完整的前后端体系。
2024-07-02 11:31:14 1209
原创 AutoGen 两个agent讲相声
注意,你想让那哪个先开始就从哪个agent 初始化一个 initiate_chat ,然后设置对话者(recipient),然后起个话头,然后设置下最多对话几轮就可以开始一个简单的相声对话了。如果我们想记录状态(state),并保持状态(maintain the state),然后让他执行一系列的任务(tasks),我们需要一个不同的方法(approach)现在有了两名相声演员,一个逗哏,一个捧哏,开始欣赏下现挂的相声吧。添加summary 参数,获取更加好的summary。
2024-07-01 20:59:04 1419
原创 无缝合并两张图片(封面右上角添加logo)-- opencv
自己修改对应的路径。这个代码实现的主要函数是cv2.seamlessClone(),这个函数可以根据梯度来调节风格,使得拼接的图像部分不至于那么突兀。
2024-07-01 18:18:52 430
原创 query2doc:用大模型做query检索拓展
这个时候就可以分析bad case。找回链路不信任关键链路漏召回相似度计算有问题的规则心法利器[37] | bad case治疗术:认知篇心法利器[38] | bad case治疗术:现状篇心法利器[39] | bad case治疗术:分析篇心法利器[40] | bad case治疗术:解决篇心法利器[32] | 一些印象深刻的bad caseML&DEV[13] | bad case分析NLP.TM[22] | 如何修正NLP问题的bad case。
2024-06-24 16:22:02 1268
原创 libGL.so.1: cannot open shared object file: No such file or directory
将/path/to/libGL.so.1替换为libGL.so.1文件的实际路径。然后,重新运行Python程序,看看问题是否得到解决。
2024-06-12 17:46:46 2437
原创 大模型PEFT(二) 之 大模型LoRA指令微调学习记录(qlora 在最后有补充,流程差不多)
增加额外参数:PrefixTuning、Prompt Tuning、Adapter Tuning及其变体。选取一部分参数更新:BitFit。引入重参数化混合高效微调。
2024-06-09 16:50:35 1681
原创 pydantic.errors.PydanticUserError: If you use `@root_validator`
pydantic的版本问题,将pydantic库的版本降低到1.10.13,pydantic_core等相关依赖库的版本也会自动降低。
2024-05-28 18:51:57 1152 3
原创 Transformer模型架构笔记
Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列数据时表现出色。
2024-05-28 16:11:59 1117
原创 CUDA_VISIBLE_DEVICES‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。
如果为CUDA_VISIBLE_DEVICES 设置了不存在的设备,所有实际设备将被隐藏,CUDA 应用将无法使用GPU设备;如果设备序列是存在和不存在设备的混合,那么不存在设备前的所有存在设备将被重新编号,不存在设备之后的所有设备将被屏蔽。当主机有多个GPU设备时,设置CUDA_VISIBLE_DEVICES 环境变量可以改变CUDA程序所能使用的GPU设备。假如主机中有4块GPU设备,那么这些GPU设备的默认编号为[0,1,2,3],在默认情况下,编号为。”,则设备2,3,0将分别被设置为。
2024-05-28 11:15:24 1908
原创 大模型PEFT(一)之推理实践学习记录
多种模型: LLaMA、Mistral、Mixtral-MoE、Qwen、Yi、Gemmha、Baichuan、ChatGLM、Phi等等。集成方法:(增量)预训练、指令监督微调、奖励模型训练、PPO训练和DPO训练。多种精度:32比特全参数微调、16比特冻结微调、16比特LORA微调和基于AQLM/AWQ/GPTQ/LLM.int8 的2/4/8比特 QLORA 微调。先进算法:GaLore、DORA、LongLoRA、LLaMAPro、LoftQ和Agen微调。实用技巧。
2024-05-27 18:00:45 1887
原创 RAG 评测
生成模块指的是将检索到的文档与查询相结合,形成增强或合合成的输入。这与最终答案或响应的生成不同,后者通常采用端到端的评估方方式。对RAG模型对特定输入生成的最终响应进行评估,涉及模型生成的答案与输入查询的相关性和一致性。
2024-05-23 13:38:51 1338
原创 Ubuntu 安装 LibreOffice
下载下来是个压缩包,解压一下(我是windows上下载,解压好又拖到ubuntu上去的,你可以直接wget 下载到ubuntu解压)还可以安装中文离线帮助文件中的所有deb包,哈哈,我没装所以后面转的中文pdf乱码了,不过后面用其他方法弄好了。Libcairo是一个用于创建二维矢量图形的库,是许多图形库(如GTK,Pango,rsvg等)的依赖项。由于 linux 默认没有安装中文字体,所以导出有中文的文件会导致中文乱码。linux 命令改成自己安装的版本,我的是7.6。安装主安装程序的所有deb包。
2024-05-21 17:00:05 3314 1
原创 判断当前系统是linux、windows还是MacOS (python)
在很多情况下,需要在python中获取当前系统的类型,用于判断是unix/windows/mac或者java虚拟机等,python中提供了os.name, sys.platform, platform.system等方式。
2024-05-20 10:30:24 1063
HashMapTest.java
2020-06-12
IDEA快捷键.pdf
2020-06-04
ConstantDemo.java
2020-06-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人