Wenweno0o-CSDN博客

转载自然语言处理之LDA主题模型

一、LDA介绍LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别...

2019-05-19 21:43:32 1367

转载自然语言处理之SVM

一、SVM原理具体原理可见：https://blog.csdn.net/d__760/article/details/80387432二、SVM文本分类实现文本分类是有监督学习的一个例子，它使用包含文本文档和标签的数据集来训练一个分类器。端到端的文本分类训练主要由三个部分组成：1. 准备数据集：第一步是准备数据集，包括加载数据集和执行基本预处理，然后把数据集分为训练集和验证集。特...

2019-05-19 21:33:47 2408 3

原创自然语言处理之朴素贝叶斯

一、朴素贝叶斯基本原理基于朴素贝叶斯公式，比较出后验概率的最大值来进行分类，后验概率的计算是由先验概率与类条件概率的乘积得出，先验概率和类条件概率要通过训练数据集得出，即为朴素贝叶斯分类模型，将其保存为中间结果，测试文档进行分类时调用这个中间结果得出后验概率。1、基本定义分类是把一个事物分到某个类别中。一个事物具有很多属性，把它的众多属性看作一个向量，即，用x这个向量来代表这个事物，x...

2019-05-19 21:00:22 2630

原创自然语言处理之word2vec

一、背景语言模型- 在统计自然语言处理中，语言模型指的是计算一个句子的概率模型。传统的语言模型中词的表示是原始的、面向字符串的。两个语义相似的词的字符串可能完全不同，比如“番茄”和“西红柿”。这给所有NLP任务都带来了挑战——字符串本身无法储存语义信息。该挑战突出表现在模型的平滑问题上：标注语料是有限的，而语言整体是无限的，传统模型无法借力未标注的海量语料，只能靠人工设计平滑...

2019-05-18 15:10:57 1905 1

转载自然语言处理之TF-IDF原理以及利用其进行特征筛选

一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词频 (term frequency, TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止...

2019-05-16 21:36:01 1649

翻译自然语言处理之结巴分词

自然语言处理之结巴分词一、介绍jieba“结巴”中文分词：做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English ...

2019-05-14 20:50:52 989

原创 Eino-Embedding 实战：向量化与语义检索应用

本文介绍了Eino-Embedding在RAG系统中的核心应用，主要内容包括： Embedding技术原理：将文本转换为稠密向量，通过余弦相似度度量语义相关性环境配置：安装依赖和设置API Key（ARK和DeepSeek）基础文本向量化：展示如何将文本转换为向量并计算相似度文档处理：实现文档分块、向量化和语义检索 RAG系统构建：结合向量检索和LLM生成知识增强的回答文章通过Go代码示例演示了完整流程，包括文本向量化、相似度计算、文档分块处理，以及最终构建一个基于向量检索的问答系统。关键点在于利用

2026-04-20 16:35:49 405

原创 Eino-Document 组件使用指南

摘要 Eino-Document 是 CloudWeGo 生态中的文档处理库，提供从多种来源加载、解析和分割文档的全链路能力。核心组件包括： Loader - 支持从本地文件、Web URL 和 AWS S3 加载文档 Parser - 解析 HTML、PDF 和纯文本等多种格式 Splitter - 将大文档切分为适合 LLM 处理的小块 ExtParser - 根据文件扩展名自动选择解析器典型工作流程：通过 Loader 获取文档 → Parser 解析为结构化数据 → Splitter 分割为 ch

2026-04-17 09:45:41 405

原创 CC-Switch & Claude 基于 Linux 服务器安装使用指南

本文提供了在Linux服务器上安装和使用CC-Switch及Claude Code的完整指南。主要内容包括：1) 环境准备（系统要求、基础依赖安装）；2) Claude Code安装（Node.js环境配置、全局安装）；3) CC-Switch安装（二进制包下载、配置初始化）；4) CC-Switch详细使用说明（供应商管理、MCP服务器管理、提示词管理、技能管理等）；5) 配置授权方法，可将root用户配置快速授权给普通用户。该指南适用于需要在Linux服务器环境中部署和管理多配置Claude Code的

2026-04-14 13:40:05 4666

原创 Eion-chatTemplate组件应用进阶

本文深入解析Eino框架中的ChatTemplate组件，对比了FString、Go Template和Jinja2三种模板化方案的优缺点，并详细介绍了组件的核心接口和基本使用方法。ChatTemplate通过声明式模板管理解决了传统Prompt拼接的可维护性和复用性问题，支持变量注入和模块化组合，适用于构建智能对话系统。文章包含组件定义、接口说明和代码示例，指导开发者从基础到高级应用ChatTemplate组件。

2026-04-13 16:41:55 374

原创 Eino - ChatTemplate 的应用

Eino框架的ChatTemplate功能为AI应用开发提供了强大的提示词管理能力。该功能支持模板化提示词设计、变量替换和多角色对话管理，包含FString格式化器、系统/用户/助手消息类型等核心组件。开发者可以通过PromptTemplates管理器创建翻译助手、代码审查、技术面试等多种专业模板，实现结构化提示词复用。ChatTemplate简化了与大模型的交互流程，使开发者能够更高效地构建AI应用，提升对话质量和任务准确性。

2026-04-13 16:14:48 442

原创 Eino - 翻译助手实现

本文介绍了基于Eino框架实现的翻译助手应用。该应用支持多语言翻译、格式保留、纯净输出、错误重试和超时控制等功能。文章详细解析了代码结构、设计原则和Go语言高阶特性的应用，包括面向失败设计、配置外部化、构造函数模式、提示词工程等关键实现方法。通过结构体标签与YAML解析、错误包装、defer等Go特性，构建了一个健壮的翻译服务系统，为开发者提供了实用的AI应用开发参考。

2026-04-12 09:52:40 522

原创 Eino - 让系统具备工程化扩展能力

本文介绍了Eino框架如何通过Option模式和Callback机制实现AI系统的工程化扩展能力。Option模式解决了Go函数参数过多的问题，通过组合方式实现灵活配置；Callback机制则提供了事件通知能力，支持在模型调用前后执行自定义逻辑。文章详细解析了这两种设计模式的实现方式，包括定义自定义选项结构、创建Option构造函数、解析Option参数，以及定义Callback接口和具体实现。这些设计原则和实现方式使系统具备良好的扩展性、可维护性和灵活性，适合大型AI应用开发。

2026-04-12 09:25:57 396

原创 Eino - 错误处理与稳定性

文章摘要： Eino框架中的错误处理与稳定性设计主要包含以下核心内容：错误处理必要性：大模型API调用存在网络超时、限流、服务异常等多种不确定性，完善的错误处理能提升用户体验和系统稳定性。配置管理：采用YAML配置文件分离环境参数，支持动态调整模型API设置和应用参数，无需重新编译即可适配不同环境。重试机制：实现指数退避策略的重试函数，通过逐步延长重试间隔（1s、2s、4s...）避免服务过载，同时提供最大重试次数限制。错误类型判断：利用errors.Is识别特定错误（如超时、取消等），并采用错误链

2026-04-11 22:25:56 475

原创 Eino - 从0到1跑通大模型调用

文章摘要：本文介绍了如何使用Eino框架实现大模型调用，从环境配置到实际应用场景的实现。主要内容包括：环境准备：安装依赖、创建配置文件，定义配置结构体实现统一管理单轮对话实现：详细解析了从加载配置到生成响应的完整流程，包含6个核心步骤模型参数配置：展示不同场景下的参数配置方法，包括基础配置、高级配置和创意写作配置文章提供了完整的代码示例和配置说明，帮助开发者快速上手Eino框架的大模型调用功能。特别强调了参数配置的重要性，如temperature控制输出随机性、top_p实现核采样等关键参数的使用

2026-04-11 22:12:21 538

原创 Eino-Workflow 实战详解

本文详细介绍了Eino框架中的Workflow组件，包括其概念特点、初始化方法和编排流程。Workflow相比Chain具有更灵活的分支结构，支持多入口设置和链式编排，适合构建复杂AI流程。文章通过篮球教练应用示例，展示了如何创建Workflow实例、定义提示词模板、设置工具节点，并通过链式调用实现节点连接。关键点包括Workflow的泛型参数设计、节点类型选择以及通过AddInput()和End()方法完成流程编排。

2026-04-10 21:19:30 551

原创 Eino-Graph 实战详解

本文详细介绍了Eino框架中Graph组件的使用，包括概念定义、初始化方法和编排流程。Graph作为Eino框架的核心组件，支持构建复杂的DAG结构AI流程，相比Chain和Workflow具有更高的灵活性。文章通过代码示例展示了如何创建Graph实例、定义提示词模板、绑定工具节点以及实现自定义Lambda节点转换。最后讲解了Graph的节点类型和编排方法，包括ChatTemplateNode、ChatModelNode等核心节点的添加与连接。

2026-04-10 21:09:42 681

原创 Eino Chain 编排实战详解

摘要：本文详细解析了Eino框架中Chain链式编排的实现方法，通过篮球教练助手案例展示了从Tool创建到Chain编排的全流程。重点介绍了ChatTemplate提示词构建、ChatModel模型交互、ToolsNode工具执行等核心技术，包括工具参数定义、绑定流程及执行机制。案例实现了用户信息查询、训练计划生成等完整功能，演示了如何将多个AI组件串联成自动化工作流。

2026-04-09 19:52:55 526

原创 Ubuntu系统VSCode配置C++开发环境

本文详细介绍了在Ubuntu 20.04系统上配置VSCode C++开发环境的完整流程。主要内容包括：通过三种方式安装VSCode编辑器；安装build-essential工具链、GCC/G++编译器和GDB调试器；安装必要的C/C++扩展插件；以及配置关键的tasks.json、launch.json和c_cpp_properties.json文件。文章提供了每个步骤的具体命令和配置说明，帮助开发者快速搭建高效的C++开发环境，适用于Ubuntu 20.04 LTS系统下的C++项目开发。

2026-04-09 16:43:09 507

原创 Ubuntu 系统配置 VS Code C++ 开发环境

本文详细介绍了在Ubuntu 20.04系统中配置VS Code C++开发环境的完整流程。主要内容包括：1)安装基础编译工具链(build-essential/GCC/G++)；2)安装调试器(GDB)和构建工具(CMake)；3)VS Code的安装及C/C++扩展配置；4)关键配置文件的设置(tasks.json/launch.json)。通过这套配置，开发者可以在Ubuntu上获得完整的C++开发环境，支持代码编辑、编译、调试等完整开发流程。文中提供了详细的命令示例和配置说明，适合Linux环境下C

2026-04-09 16:21:27 470

原创 0基础Go语言Eino框架智能体实战-chatModel

摘要：本文介绍了如何使用Go语言结合Eino框架构建智能聊天服务，涵盖环境搭建、配置管理、模型初始化到API实现的全流程。重点包括：1) 通过YAML配置文件管理模型参数；2) 使用Eino框架封装DeepSeek大模型调用；3) 实现RESTful聊天接口，支持系统提示词和用户消息输入；4) 添加请求验证和超时控制。项目采用Gin框架提供API服务，并集成Swagger文档，适合开发者快速入门AI应用开发。（150字）

2026-04-08 21:44:50 820

原创 Eino 框架：ChatModel 组件详解与实战

Eino 框架的 ChatModel 组件详解与实战本文深入解析字节开源 Golang LLM 应用开发框架 Eino 的核心组件 ChatModel。Eino 是一个强调简洁性、可扩展性的 LLM 开发框架，通过组件编排实现任务分解与自动化。ChatModel 是与大语言模型交互的核心组件，提供 Generate（完整响应）、Stream（流式响应）和 WithTools（工具绑定）三种核心方法。文章详细介绍了 Message 结构体的字段定义，并通过实战示例演示了如何使用 ARK 模型实现基础对话功能

2026-03-27 15:51:34 440

原创 python中使用pymysql

安装pip install PyMySQL查表import pymysql# 创建connection连接dbconn = pymysql.connect( host="localhost", database="XXX", user="root", password="XXX+", port=6666, charset='utf8')# 执行sql语句data = pd.read_sql('SELECT col1, col2, col3 F

2022-02-15 10:09:20 540

原创 No module named ‘sklearn.utils.linear_assignment_‘解决方案

原因：linear_assignment被弃用，官方将scipy.optimize.linear_sum_assignment代替了sklearn.utils.linear_assignment_。方法一：降低scikit-learn版本pip install -i https://pypi.douban.com/simple scikit-learn==0.19.2方法二：修改代码from scipy.optimize import linear_sum_assignment as linear

2022-01-20 11:07:46 3423

原创踩坑 gnutls_handshake() failed: The TLS connection was non-properly terminated.

git clone 时遇到 gnutls_handshake() failed: The TLS connection was non-properly terminated.原因：代理设置出错解决方案：重置代理git config --global --unset https.https://github.com.proxy git config --global --unset http.https://github.com.proxy 若需使用代理，http协议和socket协议的配

2022-01-20 10:25:39 7266

原创 OpenCV-Python边缘检测

函数cv2.Canny(image, threshold1, threshold2[, edges[, apertureSize[, L2gradient ]]]) 必要参数：第一个参数是需要处理的原图像，该图像必须为单通道的灰度图；第二个参数是阈值1；第三个参数是阈值2。其中较大的阈值2用于检测图像中明显的边缘，但一般情况下检测的效果不会那么完美，边缘检测出来是断断续续的。所以这时候用较小的第一个阈值用于将这些间断的边缘连接起来。可选参数中apertureSize就是Sobel算子的大

2022-01-11 17:53:56 430

原创 pip报错：AttributeError: ‘_NamespacePath‘ object has no attribute ‘sort‘

使用easy_install更新pipeasy_install pipeasy_install setuptools

2021-12-30 13:41:15 1035

原创目标检测模型YOLOv3之提取特征

图像分类的章节中，我们已经讲解过了通过卷积神经网络提取图像特征。通过连续使用多层卷积和池化等操作，能得到语义含义更加丰富的特征图。在检测问题中，也使用卷积神经网络逐层提取图像特征，通过最终的输出特征图来表征物体位置和类别等信息。YOLOv3算法使用的骨干网络是Darknet53。Darknet53网络的具体结构如下图所示，在ImageNet图像分类任务上取得了很好的成绩。在检测任务中，将图中C0后面的平均池化、全连接层和Softmax去掉，保留从输入到C0部分的网络结构，作为检测模型的基础网络结构，也称为

2021-12-13 11:07:15 6771

原创目标检测模型YOLOv3之候选区域计算

R-CNN系列算法需要先产生候选区域，再对候选区域做分类和位置坐标的预测，这类算法被称为两阶段目标检测算法。近几年，很多研究人员相继提出一系列单阶段的检测算法，只需要一个网络即可同时产生候选区域并预测出物体的类别和位置坐标。与R-CNN系列算法不同，YOLOv3使用单个网络结构，在产生候选区域的同时即可预测出物体类别和位置，不需要分成两阶段来完成检测任务。另外，YOLOv3算法产生的预测框数目比Faster R-CNN少很多。Faster R-CNN中每个真实框可能对应多个标签为正的候选区域，而YOLOv

2021-12-10 17:23:04 1297

原创 Python删除某根目录下的所有空目录&&删除某个文件夹

概述os.walk() 方法可以创建一个生成器，用以生成所要查找的目录及其子目录下的所有文件。os.walk() 方法用于通过在目录树中游走输出在目录中的文件名，向上或者向下。os.walk() 方法是一个简单易用的文件、目录遍历器，可以帮助我们高效的处理文件、目录方面的事情。PS:在Unix，Windows中有效。参数top – 根目录下的每一个文件夹(包含它自己), 产生3-元组 (dirpath, dirnames,filenames)【文件夹路径, 文件夹名字, 文件名】。to

2021-12-10 13:49:41 1050

原创 python时间戳转换

时间格式转换在数据处理过程中经常用到，今天就记录一下python对时间戳转换的一些常用方法将时间戳转换成时间利用localtime()函数将时间戳转化成localtime的格式利用strftime()函数重新格式化时间import timetimestamp = 1462451334#转换成localtimetime_local = time.localtime(timestamp)#转换成新的时间格式(2016-05-05 20:28:54)dt = time.strftime(

2021-12-10 11:44:17 8007

原创目标检测之数据预处理

一、数据介绍AI识虫数据集结构如下：提供了2183张图片，其中训练集1693张，验证集245，测试集245张。包含7种昆虫，分别是Boerner、Leconte、Linnaeus、acuminatus、armandi、coleoptera和linnaeus。包含了图片和标注（数据获取见文末）。将数据解压之后，可以看到目录下的结构如下所示，包含train、val和test三个文件夹。train/annotations/xmls目录下存放着图片的标注。每个xml文件是对一张图片的说明，包括图片尺寸

2021-12-08 17:29:03 5269 5

原创图像分类模型简介与搭建（基于Torch&paddlepaddle 含LeNet、AlexNet、VGG、GoogLeNet、ResNet）

一、简介图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉的核心，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用，如：安防领域的人脸识别和智能视频分析等，交通领域的交通场景识别，互联网领域基于内容的图像检索和相册自动归类，医学领域的图像识别等。上一节主要介绍了卷积神经网络常用的一些基本模块，本节将基于眼疾分类数据集iChallenge-PM，对图像分类领域的经典卷积神经网络进行剖析，介绍如何应用这些基础模块构建卷积神经网络，

2021-12-07 16:26:09 4599

测试用的0DB WAV音频文件下载

data-structures.zip

cnews中文数据集.zip

rubish_det.zip

汽车评论中文数据集.zip

空空如也