- 博客(166)
- 资源 (4)
- 收藏
- 关注
原创 【高级chunk方案[token/sentence/semantical] 完整代码!好用】
本文介绍了一个文本分块工具Chunker的实现,支持三种分块策略:语义分块(semantic)、固定长度分块(fixed)和句子分块(sentences)。该工具通过指定pip包版本(transformers 4.43.4、torch 2.4.0等)确保环境兼容性。语义分块使用HuggingFaceEmbedding和SemanticSplitterNodeParser进行语义分析;固定长度分块按指定token数划分;句子分块依据标点符号划分指定数量句子。工具可将字符位置映射回token索引,并返回分块结果
2025-06-12 15:57:03
3
原创 【clip文本图像特征提取 fg-clip/jina-clip-v2】
本文介绍了两种多模态模型的嵌入测试方法:360的FG-CLIP和JinaAI的jina-clip-v2。FG-CLIP通过图像和文本特征提取进行跨模态匹配,支持多语言文本输入。JinaAI模型则提供文本和图像编码功能,支持多语言检索和相似度计算。两种模型均可用于图像-文本匹配任务,其中JinaAI版本还支持维度裁剪功能。安装和使用代码均已提供,包括必要的依赖项和接口调用示例。这些模型适用于跨模态检索、多语言内容匹配等应用场景。
2025-06-11 11:50:50
136
原创 【T2Retrieval C_MTEB数据集 RAG召回测试数据集处理代码】
【代码】【T2Retrieval C_METB数据集 RAG召回测试数据集】
2025-06-09 11:15:08
111
原创 【bat win系统自动运行脚本-双击启动docker及其它】
这篇教程介绍了Windows系统自动化运行脚本的方法。主要内容包括: 基础批处理脚本示例: 启动Docker服务 5秒延迟后启动指定容器 激活conda环境并运行Python脚本 关键参数说明: ""作为窗口标题占位符 /k保持命令窗口开启 进阶脚本示例: 检测Docker启动状态 循环等待直到Docker启动成功 带错误处理的容器启动流程 这些脚本实现了Windows环境下服务的自动启动和顺序控制,适合系统初始化自动化任务。
2025-06-05 10:05:35
186
原创 【火山引擎 大模型批量推理数据教程---详细讲解一篇过!】
本文介绍了使用火山引擎进行批量推理的详细步骤指南。首先需要注册账号并准备好JSONL格式的数据集,确保数据符合规范要求。然后创建对象存储桶用于存放数据,在控制台提交批量处理任务。最后强调任务完成后要及时下载结果并删除存储桶以避免产生费用。整个流程处理速度快,适合需要批量推理的场景。文档提供了相关操作界面截图和代码示例,并附有各个环节的官网链接方便操作。
2025-06-01 21:34:04
468
原创 【maker-pdf 文档文字识别(包含ocr),安装使用完整教程】
本文介绍了使用marker-pdf工具进行PDF文本提取的步骤。首先通过conda创建python3.12虚拟环境并安装依赖,然后下载预训练模型。核心代码展示了如何使用PdfConverter转换PDF文件,提取文本内容并打印输出。该方法需要GPU加速处理大模型,所有模型权重会缓存在本地指定目录中。整个流程包括环境配置、模型下载和文本提取三个主要步骤,最终输出PDF文件的文本内容。
2025-05-30 17:24:22
565
原创 【火山引擎 图像超分python示例代码】
本文展示了使用火山引擎视觉API进行图像超分辨率处理的Python实现。代码包含两个核心部分:一是基于HMAC-SHA256的V4签名认证体系实现,通过signV4Request函数处理请求签名和API调用;二是具体业务实现,通过img2b64函数转换图片为Base64格式,并构造包含模型质量、输出格式等参数的请求体。示例使用6.jpg作为输入,指定中等质量(MQ)和PNG格式输出,最终返回的超分辨率处理结果通过Base64解码后显示。该方案适用于需要图像增强的场景,开发者只需替换凭证和图片路径即可快速集成
2025-05-28 16:38:11
114
原创 【md2html python 将 Markdown 文本转换为 HTML】
本文展示了两种Python方法将Markdown文本转换为HTML格式。第一种使用markdown库,支持表格和代码块等扩展功能;第二种采用md2html-phuker库实现转换。两种方法都能正确解析Markdown的标题、列表、表格、引用、代码块、加粗/斜体文本等基本语法,最终生成可显示的HTML内容,并通过示例图片展示了转换效果。文章提供了完整的代码实现,展现了Python处理Markdown文档的便捷性。
2025-05-27 15:35:29
492
原创 【modelscope/huggingface 通过colab将huggingface 模型/数据集/空间转移到 modelscope并下载】
modelscope/huggingface 通过colab将huggingface 模型/数据集/空间转移到 modelscope并下载
2025-05-21 10:22:26
317
原创 【rich 终端打印进度,openai-agent中的代码】
本文介绍了一个名为 Printer 的 Python 类,用于在金融研究代理中流式传输状态更新。该类通过 Rich 库实现动态控制台输出,支持显示任务状态(如进行中或已完成)并可选隐藏完成标记。Printer 类的主要功能包括初始化控制台、更新任务状态、标记任务完成以及刷新显示内容。通过 Live 组件,它能够实时更新控制台输出,使用 Spinner 表示进行中的任务,并用 ✅ 标记已完成的任务。代码示例展示了如何使用 Printer 类模拟金融研究任务的状态更新流程。
2025-05-19 10:09:01
113
转载 【NLP Python中使用jieba库进行中文文本分词的详细教程与实践案例】
本文介绍了Python中用于中文分词的jieba库,详细讲解了其安装、使用方法及实际应用案例。jieba库支持精确模式、全模式和搜索引擎模式三种分词方式,并允许用户添加自定义词典以提高分词准确性。文章通过示例代码展示了如何使用jieba进行分词、统计词频以及生成词云图。jieba库功能强大且易于使用,适用于文本分析、搜索引擎优化等多种场景,为中文自然语言处理提供了有力支持。
2025-05-14 10:46:43
119
原创 【NLP 计算句子之间的BLEU和ROUGE分数】
本文介绍了如何使用Python中的nltk和rouge-score库批量计算BLEU和ROUGE分数,以评估生成文本的质量。首先,通过pip安装必要的依赖库。接着,提供了三个主要函数:batch_bleu用于计算批量BLEU-4分数,batch_rouge用于计算ROUGE-1、ROUGE-2和ROUGE-L分数,evaluate_all则整合了这两个函数,返回BLEU和ROUGE的平均分数。最后,通过示例数据展示了如何使用这些函数进行评估,并输出了评估结果。这些工具适用于自然语言处理任务中生成文本的自动评
2025-05-14 10:37:39
348
原创 【NLP 困惑度解析和python实现】
困惑度(Perplexity)是自然语言处理中用于评估语言模型性能的重要指标,衡量模型对测试数据的预测能力。其定义为模型对测试语料概率的几何平均的倒数,计算公式为 $\text{Perplexity} = \exp\left( -\frac{1}{N} \sum_{i=1}^N \log P(w_i) \right)$,其中 $N$ 是词的总数,$P(w_i)$ 是模型对第 $i$ 个词的概率估计。计算步骤包括获取词的对数概率、求平均对数概率,并通过指数化得到困惑度。困惑度越低,模型预测越准确;反之,不确定
2025-05-14 10:34:07
715
原创 【处理Helmet detection 数据集 coco-> yolo格式 数据下载处理完整教程】
【处理Helmet detection 数据集 coco-> yolo格式 数据下载处理完整教程】
2025-03-19 11:38:43
201
原创 【阿里云部署fastapi,端口挂载到域名】
购买阿里云ECS,域名(并ICP备案),ssl证书。- linux创建端口转发(将80转发到1234)
2025-03-06 13:51:20
146
原创 【阿里云ECS Ubuntu 部署fastapi,端口挂载到域名】
这会将你的规则保存在 /etc/iptables/rules.v4 文件中,并且每次系统重启后都会自动加载。安装iptables-persistent。创建端口转发(将80转发到1234)
2025-02-14 14:46:35
172
原创 【FastAPI 使用FastAPI和uvicorn来同时运行HTTP和HTTPS的Python应用程序】
FastAPI是一个高性能的Web框架,可以用于构建快速、可靠的API。它基于Python的类型提示和异步支持,使得开发者可以轻松地编写出安全且高效的代码。而uvicorn是一个用于ASGI应用的服务器,它可以快速启动并运行Python应用程序。在本文中,我们介绍了如何使用FastAPI和uvicorn来同时运行HTTP和HTTPS的Python应用程序。通过配置HTTP服务器和生成SSL证书,我们可以在快速和安全的环境中开发和部署Web应用程序。
2025-02-13 23:59:05
876
原创 【非 root 用户下全局使用静态编译的 FFmpeg】
这样,你就可以在非 root 账户下全局使用 FFmpeg 了。如果可以看到 FFmpeg 的版本信息,则表示配置成功。为了在全局(当前用户)使用 FFmpeg,需要将。二进制文件移动到用户目录下的。
2025-02-07 10:14:12
608
原创 【Ollama 加载ModelScope模型】
Ollama是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架。得益于底层引擎提供的高效模型推理,以及多硬件适配,Ollama能够在包括CPU、GPU在内的,不同的硬件环境上,运行各种精度的GGUF格式大模型。通过一个命令行就能拉起LLM模型服务。ModelScope社区上托管了数千个优质的GGUF格式的大模型(包括LLM和视觉多模态模型),并支持了Ollama框架和ModelScope平台的链接,通过简单的ollama run命令,就能。
2025-02-06 11:53:47
1701
原创 【FunASR的详解和使用】
FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包,旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。FunASR提供了便捷的脚本和教程,支持预训练模型的推理与微调,帮助用户快速构建高效的语音识别服务。支持各种音视频格式输入,可以把几十个小时的长音频与视频识别成带标点的文字,支持上百路请求同时进行转写 支持中文、英文、日文、粤语和韩语等。
2025-02-05 11:44:10
1371
1
原创 【原生记忆能力 怎么让大模型拥有原生的记忆能力】
所以用户可能希望模型能够持续记住之前的交互信息,或者在多次使用中积累知识,类似于人类的长期记忆。所以,用户可能希望在不侵犯隐私的前提下,让模型具备记忆能力。已有的方法比如使用外部数据库或向量检索,可能属于外部记忆,但用户想要的是“原生”的,也就是内建的机制。用户还可能希望记忆是可控的,比如选择性存储和遗忘,这可能涉及到注意力机制的改进,让模型自动决定哪些信息需要长期保存。总结下来,我需要从模型架构、训练方法、外部系统结合、隐私保护等多个方面来回答,既要技术可行性,也要考虑实际应用的挑战。
2025-01-23 16:43:17
937
原创 使用 ECS服务器 和 vsCode 搭建远程开发站
在 Window 中打开 PowerShell 程序【此处不知道 PowerShell 可以百度一下,不做过多介绍】学习过 Linux 的应该对 SSH 很了解,使用在此不介绍 Linux 上的使用。这是 ssh 的命令格式,ssh 是基本功不会的直接百度 ssh 用法。将公钥【id_rsa.pub】发送到 ECS服务器中系统的用户。进入PowerShell 程序后,使用ssh登录ECS服务器。点击终端【新建终端】,点击图中的内容切换终端。终端可以使用远程云端的Shell。进入 本地用户目录 的。
2025-01-23 15:36:10
1028
原创 【github 下载太慢?github代理加速器来帮你】
可以看到,卡住不动了,这时候可以使用 proxy 地址进行加速 https://ghgo.xyz除了git clone仓库之外,其他 github 资源也可以实现代理访问,例如等资源也可以通过代理地址加速,使用方法与上述类似。比如访问资源。
2025-01-15 09:19:59
6420
1
原创 【python A* pygame 格式化 自定义起点、终点、障碍】
【代码】【python A* pygame 格式化 自定义起点、终点、障碍】
2025-01-10 17:08:01
474
原创 【DNS 阿里云,域名解析,解析到IP的指定端口】
类型解析你的服务器的IP地址(不需要带端口号,这条解析只是起到中转作用);-- 记录值:xxx.xxx.xxx.xxx (你的公网IP4/IP6)类型解析你刚添加的域名解析,然后在这里添加端口号;
2025-01-10 13:44:33
2276
原创 【fio 测试磁盘性能】
fio(Flexible I/O Tester)是一个强大的工具,用于测试磁盘 I/O 性能。它支持多种 I/O 引擎、工作负载模式和测试场景,可以帮助你评估磁盘的读写性能、延迟、吞吐量等指标。以下是使用fio。
2025-01-09 17:53:02
2570
原创 【html 常用MIME类型列表】
本表仅列出了常用的MIME类型,完整列表。浏览器通常使用 MIME 类型(而不是文件扩展名)来确定如何处理 URL,因此 Web 服务器在响应头中添加正确的 MIME 类型非常重要。如果配置不正确,浏览器可能会曲解文件内容,网站将无法正常工作,并且下载的文件也会被错误处理。常用MIME类型列表-使用说明媒体类型(通常称为 Multipurpose Internet Mail Extensions 或 MIME 类型 )是一种标准,用来表示文档、文件或字节流的性质和格式。
2024-12-13 13:19:06
1188
sh.600000.csv股票数据集
2024-06-07
Matlab实现SeamCarving算法 放大缩小图片(包含GUI)
2022-02-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人