自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

放飞自我的coder

欢迎各位年轻小伙、小姑娘光临

  • 博客(166)
  • 资源 (4)
  • 收藏
  • 关注

原创 【高级chunk方案[token/sentence/semantical] 完整代码!好用】

本文介绍了一个文本分块工具Chunker的实现,支持三种分块策略:语义分块(semantic)、固定长度分块(fixed)和句子分块(sentences)。该工具通过指定pip包版本(transformers 4.43.4、torch 2.4.0等)确保环境兼容性。语义分块使用HuggingFaceEmbedding和SemanticSplitterNodeParser进行语义分析;固定长度分块按指定token数划分;句子分块依据标点符号划分指定数量句子。工具可将字符位置映射回token索引,并返回分块结果

2025-06-12 15:57:03 3

原创 【clip文本图像特征提取 fg-clip/jina-clip-v2】

本文介绍了两种多模态模型的嵌入测试方法:360的FG-CLIP和JinaAI的jina-clip-v2。FG-CLIP通过图像和文本特征提取进行跨模态匹配,支持多语言文本输入。JinaAI模型则提供文本和图像编码功能,支持多语言检索和相似度计算。两种模型均可用于图像-文本匹配任务,其中JinaAI版本还支持维度裁剪功能。安装和使用代码均已提供,包括必要的依赖项和接口调用示例。这些模型适用于跨模态检索、多语言内容匹配等应用场景。

2025-06-11 11:50:50 136

原创 【T2Retrieval C_MTEB数据集 RAG召回测试数据集处理代码】

【代码】【T2Retrieval C_METB数据集 RAG召回测试数据集】

2025-06-09 11:15:08 111

原创 【bat win系统自动运行脚本-双击启动docker及其它】

这篇教程介绍了Windows系统自动化运行脚本的方法。主要内容包括: 基础批处理脚本示例: 启动Docker服务 5秒延迟后启动指定容器 激活conda环境并运行Python脚本 关键参数说明: ""作为窗口标题占位符 /k保持命令窗口开启 进阶脚本示例: 检测Docker启动状态 循环等待直到Docker启动成功 带错误处理的容器启动流程 这些脚本实现了Windows环境下服务的自动启动和顺序控制,适合系统初始化自动化任务。

2025-06-05 10:05:35 186

原创 【火山引擎 大模型批量推理数据教程---详细讲解一篇过!】

本文介绍了使用火山引擎进行批量推理的详细步骤指南。首先需要注册账号并准备好JSONL格式的数据集,确保数据符合规范要求。然后创建对象存储桶用于存放数据,在控制台提交批量处理任务。最后强调任务完成后要及时下载结果并删除存储桶以避免产生费用。整个流程处理速度快,适合需要批量推理的场景。文档提供了相关操作界面截图和代码示例,并附有各个环节的官网链接方便操作。

2025-06-01 21:34:04 468

原创 【maker-pdf 文档文字识别(包含ocr),安装使用完整教程】

本文介绍了使用marker-pdf工具进行PDF文本提取的步骤。首先通过conda创建python3.12虚拟环境并安装依赖,然后下载预训练模型。核心代码展示了如何使用PdfConverter转换PDF文件,提取文本内容并打印输出。该方法需要GPU加速处理大模型,所有模型权重会缓存在本地指定目录中。整个流程包括环境配置、模型下载和文本提取三个主要步骤,最终输出PDF文件的文本内容。

2025-05-30 17:24:22 565

原创 【火山引擎 图像超分python示例代码】

本文展示了使用火山引擎视觉API进行图像超分辨率处理的Python实现。代码包含两个核心部分:一是基于HMAC-SHA256的V4签名认证体系实现,通过signV4Request函数处理请求签名和API调用;二是具体业务实现,通过img2b64函数转换图片为Base64格式,并构造包含模型质量、输出格式等参数的请求体。示例使用6.jpg作为输入,指定中等质量(MQ)和PNG格式输出,最终返回的超分辨率处理结果通过Base64解码后显示。该方案适用于需要图像增强的场景,开发者只需替换凭证和图片路径即可快速集成

2025-05-28 16:38:11 114

原创 【md2html python 将 Markdown 文本转换为 HTML】

本文展示了两种Python方法将Markdown文本转换为HTML格式。第一种使用markdown库,支持表格和代码块等扩展功能;第二种采用md2html-phuker库实现转换。两种方法都能正确解析Markdown的标题、列表、表格、引用、代码块、加粗/斜体文本等基本语法,最终生成可显示的HTML内容,并通过示例图片展示了转换效果。文章提供了完整的代码实现,展现了Python处理Markdown文档的便捷性。

2025-05-27 15:35:29 492

原创 【两个区域IoU 计算/可视化两个由顶点确定的区域的交并比IoU】

IoU 计算/可视化两个由顶点确定的区域相交的面积

2025-05-21 11:27:55 118

原创 【modelscope/huggingface 通过colab将huggingface 模型/数据集/空间转移到 modelscope并下载】

modelscope/huggingface 通过colab将huggingface 模型/数据集/空间转移到 modelscope并下载

2025-05-21 10:22:26 317

原创 【rich 终端打印进度,openai-agent中的代码】

本文介绍了一个名为 Printer 的 Python 类,用于在金融研究代理中流式传输状态更新。该类通过 Rich 库实现动态控制台输出,支持显示任务状态(如进行中或已完成)并可选隐藏完成标记。Printer 类的主要功能包括初始化控制台、更新任务状态、标记任务完成以及刷新显示内容。通过 Live 组件,它能够实时更新控制台输出,使用 Spinner 表示进行中的任务,并用 ✅ 标记已完成的任务。代码示例展示了如何使用 Printer 类模拟金融研究任务的状态更新流程。

2025-05-19 10:09:01 113

原创 【gitee 初学者创建仓库】

初学者gitee 创建仓库

2025-05-17 18:24:00 287

转载 【NLP Python中使用jieba库进行中文文本分词的详细教程与实践案例】

本文介绍了Python中用于中文分词的jieba库,详细讲解了其安装、使用方法及实际应用案例。jieba库支持精确模式、全模式和搜索引擎模式三种分词方式,并允许用户添加自定义词典以提高分词准确性。文章通过示例代码展示了如何使用jieba进行分词、统计词频以及生成词云图。jieba库功能强大且易于使用,适用于文本分析、搜索引擎优化等多种场景,为中文自然语言处理提供了有力支持。

2025-05-14 10:46:43 119

原创 【NLP 计算句子之间的BLEU和ROUGE分数】

本文介绍了如何使用Python中的nltk和rouge-score库批量计算BLEU和ROUGE分数,以评估生成文本的质量。首先,通过pip安装必要的依赖库。接着,提供了三个主要函数:batch_bleu用于计算批量BLEU-4分数,batch_rouge用于计算ROUGE-1、ROUGE-2和ROUGE-L分数,evaluate_all则整合了这两个函数,返回BLEU和ROUGE的平均分数。最后,通过示例数据展示了如何使用这些函数进行评估,并输出了评估结果。这些工具适用于自然语言处理任务中生成文本的自动评

2025-05-14 10:37:39 348

原创 【NLP 困惑度解析和python实现】

困惑度(Perplexity)是自然语言处理中用于评估语言模型性能的重要指标,衡量模型对测试数据的预测能力。其定义为模型对测试语料概率的几何平均的倒数,计算公式为 $\text{Perplexity} = \exp\left( -\frac{1}{N} \sum_{i=1}^N \log P(w_i) \right)$,其中 $N$ 是词的总数,$P(w_i)$ 是模型对第 $i$ 个词的概率估计。计算步骤包括获取词的对数概率、求平均对数概率,并通过指数化得到困惑度。困惑度越低,模型预测越准确;反之,不确定

2025-05-14 10:34:07 715

原创 【win11 安装WSL2 详解一遍过!!】

win11 安装WSL2 详解一遍过!

2025-04-24 21:30:04 554

原创 【安装neo4j-5.26.5社区版 完整过程】

从零安装安装neo4j-5.26.5社区版 完整过程

2025-04-22 09:45:58 532

原创 【linux重设gitee账号密码 克隆私有仓库报错】

【linux 重设gitee账号密码 克隆私有仓库报错】

2025-03-25 10:00:00 260

原创 【swift 数据准备-微调-部署-测试 完整教程】

swift 数据准备-微调-部署-测试 完整教程

2025-03-20 13:53:17 334

原创 【处理Helmet detection 数据集 coco-> yolo格式 数据下载处理完整教程】

【处理Helmet detection 数据集 coco-> yolo格式 数据下载处理完整教程】

2025-03-19 11:38:43 201

原创 【Linux 22.4 ubuntu 安装cuda12.1 完整方案】

【Linux 22.4 ubuntu 安装cuda12.1 完整方案】

2025-03-07 22:12:44 988

原创 【基于KG的大模型对话系统(fastapi)完整可上手】

以下是一个使用 FastAPI 搭建的基于知识图谱的大模型对话系统的示例代码。

2025-03-06 13:56:28 214

原创 【安装ollama,修改ollama默认模型保存路径】

安装ollama,并修改默认模型保存路径

2025-03-06 13:53:25 520

原创 【阿里云部署fastapi,端口挂载到域名】

购买阿里云ECS,域名(并ICP备案),ssl证书。- linux创建端口转发(将80转发到1234)

2025-03-06 13:51:20 146

原创 【如何使用jina-embeddings-v3?完整教程如下】

文本嵌入模型【如何使用jina-embeddings-v3?完整教程如下】

2025-02-24 14:55:47 692

原创 【阿里云ECS Ubuntu 部署fastapi,端口挂载到域名】

这会将你的规则保存在 /etc/iptables/rules.v4 文件中,并且每次系统重启后都会自动加载。安装iptables-persistent。创建端口转发(将80转发到1234)

2025-02-14 14:46:35 172

原创 【FastAPI 使用FastAPI和uvicorn来同时运行HTTP和HTTPS的Python应用程序】

FastAPI是一个高性能的Web框架,可以用于构建快速、可靠的API。它基于Python的类型提示和异步支持,使得开发者可以轻松地编写出安全且高效的代码。而uvicorn是一个用于ASGI应用的服务器,它可以快速启动并运行Python应用程序。在本文中,我们介绍了如何使用FastAPI和uvicorn来同时运行HTTP和HTTPS的Python应用程序。通过配置HTTP服务器和生成SSL证书,我们可以在快速和安全的环境中开发和部署Web应用程序。

2025-02-13 23:59:05 876

原创 【非 root 用户下全局使用静态编译的 FFmpeg】

这样,你就可以在非 root 账户下全局使用 FFmpeg 了。如果可以看到 FFmpeg 的版本信息,则表示配置成功。为了在全局(当前用户)使用 FFmpeg,需要将。二进制文件移动到用户目录下的。

2025-02-07 10:14:12 608

原创 【Ollama 加载ModelScope模型】

Ollama是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架。得益于底层引擎提供的高效模型推理,以及多硬件适配,Ollama能够在包括CPU、GPU在内的,不同的硬件环境上,运行各种精度的GGUF格式大模型。通过一个命令行就能拉起LLM模型服务。ModelScope社区上托管了数千个优质的GGUF格式的大模型(包括LLM和视觉多模态模型),并支持了Ollama框架和ModelScope平台的链接,通过简单的ollama run命令,就能。

2025-02-06 11:53:47 1701

原创 【FunASR的详解和使用】

FunASR是一个由阿里巴巴达摩院开发的开源语音识别工具包,旨在为学术研究和工业应用提供桥梁。它支持多种语音识别功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别。FunASR提供了便捷的脚本和教程,支持预训练模型的推理与微调,帮助用户快速构建高效的语音识别服务。支持各种音视频格式输入,可以把几十个小时的长音频与视频识别成带标点的文字,支持上百路请求同时进行转写 支持中文、英文、日文、粤语和韩语等。

2025-02-05 11:44:10 1371 1

原创 【原生记忆能力 怎么让大模型拥有原生的记忆能力】

所以用户可能希望模型能够持续记住之前的交互信息,或者在多次使用中积累知识,类似于人类的长期记忆。所以,用户可能希望在不侵犯隐私的前提下,让模型具备记忆能力。已有的方法比如使用外部数据库或向量检索,可能属于外部记忆,但用户想要的是“原生”的,也就是内建的机制。用户还可能希望记忆是可控的,比如选择性存储和遗忘,这可能涉及到注意力机制的改进,让模型自动决定哪些信息需要长期保存。总结下来,我需要从模型架构、训练方法、外部系统结合、隐私保护等多个方面来回答,既要技术可行性,也要考虑实际应用的挑战。

2025-01-23 16:43:17 937

原创 使用 ECS服务器 和 vsCode 搭建远程开发站

在 Window 中打开 PowerShell 程序【此处不知道 PowerShell 可以百度一下,不做过多介绍】学习过 Linux 的应该对 SSH 很了解,使用在此不介绍 Linux 上的使用。这是 ssh 的命令格式,ssh 是基本功不会的直接百度 ssh 用法。将公钥【id_rsa.pub】发送到 ECS服务器中系统的用户。进入PowerShell 程序后,使用ssh登录ECS服务器。点击终端【新建终端】,点击图中的内容切换终端。终端可以使用远程云端的Shell。进入 本地用户目录 的。

2025-01-23 15:36:10 1028

原创 【github 下载太慢?github代理加速器来帮你】

可以看到,卡住不动了,这时候可以使用 proxy 地址进行加速 https://ghgo.xyz除了git clone仓库之外,其他 github 资源也可以实现代理访问,例如等资源也可以通过代理地址加速,使用方法与上述类似。比如访问资源。

2025-01-15 09:19:59 6420 1

原创 【python A* pygame 格式化 自定义起点、终点、障碍】

【代码】【python A* pygame 格式化 自定义起点、终点、障碍】

2025-01-10 17:08:01 474

原创 【DNS 阿里云,域名解析,解析到IP的指定端口】

类型解析你的服务器的IP地址(不需要带端口号,这条解析只是起到中转作用);-- 记录值:xxx.xxx.xxx.xxx (你的公网IP4/IP6)类型解析你刚添加的域名解析,然后在这里添加端口号;

2025-01-10 13:44:33 2276

原创 【fio 测试磁盘性能】

fio(Flexible I/O Tester)是一个强大的工具,用于测试磁盘 I/O 性能。它支持多种 I/O 引擎、工作负载模式和测试场景,可以帮助你评估磁盘的读写性能、延迟、吞吐量等指标。以下是使用fio。

2025-01-09 17:53:02 2570

原创 【python/html/js 鼠标点选/框选图片内容】

python/html 鼠标点选/框选图片内容

2025-01-07 11:58:19 536

原创 【微调 whister】

Whisper 模型微调全指南 - MetricVoid's Blog

2024-12-13 21:52:45 116

原创 【html 常用MIME类型列表】

本表仅列出了常用的MIME类型,完整列表。浏览器通常使用 MIME 类型(而不是文件扩展名)来确定如何处理 URL,因此 Web 服务器在响应头中添加正确的 MIME 类型非常重要。如果配置不正确,浏览器可能会曲解文件内容,网站将无法正常工作,并且下载的文件也会被错误处理。常用MIME类型列表-使用说明媒体类型(通常称为 Multipurpose Internet Mail Extensions 或 MIME 类型 )是一种标准,用来表示文档、文件或字节流的性质和格式。

2024-12-13 13:19:06 1188

原创 【html css选择器 五种方法,一篇看会】

在 CSS 中,你可以通过选择器来选择 HTML 元素,并为其设置样式。

2024-12-10 17:27:03 682

late chunking 文本分块算法对比测试代码

late chunking 文本分块算法对比测试代码

2025-06-12

sh.600000.csv股票数据集

https://blog.csdn.net/qq_39749966/article/details/130535057 此blog的数据集,股票预测

2024-06-07

TG12864B中文参考文档

现在对于TG12864B_01的资源的是真的少之又少,分享一下自己用过的TG12864B_01的中文参考文档,方便小伙伴们编程实现自己的小设计

2018-11-25

ComplexNode_SPMA 基于INET平台的仿真代码

基于INET平台的SPMA 协议仿真,利用多优先级QOS保证高优先级数据包的发送。

2022-02-12

pytorch-1.4.0-py3.8_cuda101_cudnn7_0.tar.bz2

pytorch-1.4.0-py3.8 cuda101 cudnn7.0

2022-02-14

Matlab实现SeamCarving算法 放大缩小图片(包含GUI)

1.Matlab可以直接运行的源码实现,功能结构,代码清晰易读 2.可以帮助理解代码以及相应的实现原理 3.能实现基于SeamCarving算法的图像放大和缩小

2022-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除