坠金-CSDN博客

原创部署http服务

通过命令行python3.8 model/utils/test_http_dtw.py运行上述代码。使用flask搭建一个http服务，能够通过本地的另外一个终端访问对应接口，拿到服务端的计算结果。创建一个test_http_dtw.py并运行。

2025-06-12 16:14:34 198

原创算法性能分析

比如图中使用cprofile分析，分析可知第二行的东西调用了4次，一共耗时0.533s。实际工程中有多个算法，可以通过分析工具分析。

2025-06-05 16:43:25 125

原创 window/linux ollama部署模型

{"role": "system", "content": "你是一个AI助手"},{"role": "user", "content": "你好，介绍一下你自己"}

2025-06-02 21:15:42 132

原创 rag分类

模块化，rag的各个阶段被分成了多个模块类，模块和算法质检不再有固定的选择和顺序流程。索引检索生成，顺序执行。对索引检索生成进行优化。

2025-05-21 17:25:57 25

5）检索中的错误传播。例如对于“云安全最佳实践”的查询，如果检索到的关于“双因素验证”（一种云安全的身份验证方法）的段落排在不那么重要的段落后面，那么最终的输出可能会低估“双因素验证”的重要性。例如，检索到的段落可能提供了多种关于“图机器学习方法”的观点，如果生成的输出只是重复这些观点，而没有提供额外的信息，那么增强处理相当于没有实质的价值。例如，数据库中的一篇关于“全球变暖”的文章的局部信息和查询“极地冰川融化”的相似性很高，但是搜索机制可能会依据全局的相似性，而忽略了这种局部的相似性。

2025-05-15 11:00:01 34

原创 rag召回

定义对称检索：根据查询内容检索出同义句，如根据“How to learn Python online?”检索出“How to learn Python on the web?非对称检索：根据问题检索答案。RAG场景下，向量召回环节本质上进行的是非对称检索对称检索只需要模型具有内容抽象能力，但是非对称要求模型能够将问题和答案映射到统一空间，这需要模型经过大量的qa对训练优化手段。

2025-05-15 10:31:16 23

原创 rag文本切块

处理Python代码、Markdown、LaTeX的方法非常简单，针对不同的文本类型默认设置了不同的分割符列表，然后进一步调用固定大小文本切块方法。此外，LangChain还为用户预定义了其他常用编程语言（如Go、C++、Java）的分割符列表，但并未定义分割这些编程语言文本的类接口。大模型应用开发框架LangChain为用户提供了RecursiveCharacterTextSplitter文本切分方法，在尽量保证上下文完整性的情况下，允许文本块的大小略微偏离预设大小。

2025-05-14 16:08:54 28

原创【AI知识库云研发部署】RAGFlow + DeepSeek

这里用cvm没用云研发的原因是云研发已经是容器环境了，不支持docker in docker。在云服务器 CVM （cpu版）中，克隆 RAGFlow 知识库：git clone。通过screen后台运行ollama：screen -S ollama。从本地浏览器直接访问cvm，比如我的cvm是9.34.5.10，则访问。到这一步基本完成了，回到主页开始上传文档，然后开始rag问答。结束所有ollama进程：pkill -f ollama。由于用的模型很拉垮，这里会很慢，耐心等待。注意等待文档解析完成。

2025-05-06 17:19:17 492

原创 llama_index ImportError: cannot import name ‘BaseQueryEngine‘ ...due to a circular import

llama_index 0.9.21版本中存在循环依赖。当 Python 解释器执行到。模块的初始化流程被中断，导致。

2025-04-22 17:37:05 236

原创阿里云rerank模型调用

文本排序模型 (Text ReRank Model)，通常用于语义检索场景，模型可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (Documents)，会根据与查询的语义相关性从高到低对候选文本进行排序。

2025-04-21 14:42:23 334

原创【基于规则】基于距离的相似性度量

之间的距离，用来度量两条曲线的相似性。这类算法的精确度取决于选点的规则，以及距离的计算方式。欧几里得距离：不允许时间偏移，直接计算两个时序数据点之间的距离，适用于长度相同的序列。dtw：优化了选点的方式（能够匹配波峰波谷），允许时间偏移，计算复杂度O(nm。基于点：设时两条序曲线分别为X，Y，在曲线上选取点Xx和Yy，计算。之间的距离，包括hausdorff、frechet距离。Hausdorff距离 == d11和d23的最大者。基于分段：单向距离，lip距离，

2025-04-08 14:37:22 47

原创时序数据异常检测-综述

基于统计学/分布：当数据点的数值超出分布时判定为异常n-sigma：假设正态分布原理四分位数法（iqr/箱型图法）：不假设分布，非参数化方法，原理GESD：假设检验判断观察值是否偏离数据集平均水平mad法：样本均值用样本中位数代替，样本标准差用样本MAD（Median Absolute Deviation）代替概率估计法（通常会取log）：对于n维高斯分布数据，可以计算每个维度的均值和方差，并通过概率值大小判断是否异常。缺点是没有考虑属性间关联性基于相似性度量降噪滑动平均：参数敏感。

2025-04-08 10:54:22 505

原创互斥锁/读写锁实战

假如原代码为这段代码通过global_conf() 读取全局变量，初始化时通过set_global_conf() 设置全局变量的初始值，并配合回调函数cb() 更新全局变量。

2025-03-31 16:31:02 278

原创 pip install cupy报错

cupy 需要与 CUDA 版本匹配，根据 nvidia-smi 的输出，CUDA 版本是 12.2,因此需要安装支持 CUDA 12.2 的 cupy 版本。注意就是x，不是pip install cupy-cuda122。

2025-03-14 10:00:01 378

原创 transformer如何处理word embedding和sentence embedding

假设句子是：“猫躺在沙发上，狗在啃骨头。Transformer 通过。

2025-02-27 10:28:29 1013

原创神经网络参数量计算

算一个只有两层的神经网络的参数量，我们需要考虑两层之间的连接权重和偏置项。

2025-02-26 11:24:44 582

原创报错：Argument for @NotNull parameter ‘module‘ of com/intelli/lopenapi/roots/ModuleRootManager.getinsta

评论提到：新的运行配置与旧的配置参数相同，但生成的 XML 文件却不同，因此我猜测这个问题是运行配置损害或者不兼容，尝试创建新的运行配置。这个报错是不能通过删掉.idea或者通过什么File -> Project Structure-> ...进行解决。

2025-02-24 09:59:34 643

原创报错：no matching host key type found

服务器只支持较老的加密算法（如 ssh-rsa 或 ssh-dss），而本地客户端由于安全原因默认禁用了这些算法。因此，客户端无法与服务器协商成功。找到路径下config文件，添加以下配置在开头后保存文件。(如果没有config文件，则新建即可）方案一，在命令行中强制启用旧的加密算法，比如scp命令中。可能发生在scp或其他方式连接服务器时。在终端输入命令open ~/.ssh。方案二：修改ssh文件。

2025-02-08 11:41:38 1159

原创多分类交叉熵与稀疏分类交叉熵

稀疏分类交叉熵内部会将整数标签转换为 One-hot 编码，而如果标签已经是 One-hot 编码的形式，再使用稀疏分类交叉熵就会多此一举。假设我们有三个类别：A、B 和 C。对于某个样本，其真实标签为 B。其中 y 是真实标签的整数值，在这个算例中，真实标签为B，模型输出的预测概率q(B)=0.7。其中p是真实分布（One-hot 编码），q是预测分布，那么预测概率的向量为。

2024-12-12 14:37:49 280

原创【工程】时序相似性测量-流数据+分布式系统

范数和基于相关性的距离提供了精确的增量表达式，内存消耗最小，计算工作量也小。相比之下，基于ESM（弹性相似性度量）的计算复杂性使得在处理长时间序列时计算量较大，然而基于esm的算法效果确实比其他的好。在线设置中时间序列之间相似性的主要度量：基于形状的模型，这些 ESM 之间的基本差异在于它们可以处理的。文献[1]在流数据中实现dtw，所用数据是心电图。) 和带实数惩罚的编辑距离 (ERP。要么减少学习方法中的 ESM 计算次数。)、实数序列编辑距离 (EDR。，要么加快 ESM 计算本身。

2024-12-03 10:26:29 62

原创时间序列相似性综述

陈海燕,刘晨晖,孙博.时间序列数据挖掘的相似性度量综述[J].控制与决策,2017,32(01):1-11.DOI:10.13195/j.kzyjc.2016.0462.孙冬璞,曲丽.时间序列特征表示与相似性度量研究综述[J].计算机科学与探索,2021,15(02):195-205.背景：数据分析前，如果能舍弃相似度偏低的序列数据，能够提高后续分析的精度和效率。

2024-12-02 15:19:35 120

原创【工程】服务器运算速度测试

在远程服务器上运行代码。

2024-11-29 10:56:45 107

原创【基于规则】iqr

【代码】【基于规则】iqr。

2024-11-25 15:41:42 118

原创【基于规则】n-sigma

假设我们有一组数据，其均值为μ，标准差为σ。若z=1.2，说明该数据点在1σ和2σ之间（位于均值 μ 加上 1.2 个标准差）这称为68-95-99.7法则（Empirical Rule）。

2024-11-25 15:02:02 176

原创【基于规则】滑动平均

加权移动平均给固定跨越期限内的每个变量值以相等的权重。其原理是：历史各期产品需求的数据信息对预测未来期内的需求量的作用是不一样的。除了以 n 为周期性变化外，远离目标期的变量值的影响力相对较低，故应给予较低的权重。(一次移动平均法)是收集一组观察值，计算这组观察值的均值，利用这个均值作为下一期的预测值。

2024-11-25 14:54:02 86

原创 DTW加速计算

优化了选点的方式（能够匹配波峰波谷），允许时间偏移，计算复杂度O(nm)

2024-11-25 14:33:09 229

原创【基于规则】余弦相似度

把时序数据看作高维向量（连续函数看作连续无穷维向量），衡量两个向量之间的夹角，忽略其幅值特点。基于点乘，观察者（基）足够多，能够围观到真相。在数学上，本质还是求两条曲线之间的面积，和基于距离中的某些方法是异曲同工之妙。上方为正，下方为负，

2024-11-25 14:23:53 50

原创小波变换/去噪

基于傅立叶变换可用于去噪等采用塔式分解，能够同时得到时间和频率的信息，小波就是一系列的观察者，算法效果取决于选取的小波种类、选取的分量（峭度）

2024-11-22 16:11:13 58

原创机器学习评价标准

机器学习作为算子引入工程，必然要有方法评价模型的有效性，通常从两个方面进行考虑：

2024-11-19 16:25:24 343

原创用户留存及影响因子（KM生存分析、Cox比例危害模型）

目标：获取每个时间点（入会月数）上发生停付事件的概率。

2024-11-19 16:02:09 191

原创 dropout层/暂退法

Hinton 的这个灵感来自银行的防欺诈机制。他去银行办理业务时，发现柜员不停地换人。他就猜想，银行工作人员要想成功欺诈银行，他们之间要互相合作才行，因此一个柜员不能在同一个岗位待得过久。这让他意识到，在某些神经网络层中的各个神经元之间的参数可能也是针对训练数据集形成了某种“固定套路”，那么，随机删除一部分神经元，就有可能打破这些套路，阻止它们的“阴谋”，从而降低过拟合。正则化的目的是为了让模型粗糙一点儿，不要过分追求完美。作用：正则化，缓解过拟合。

2024-11-18 16:59:45 372

原创数据增强概念

实际上，这也可以理解成减少模型的复杂度：不希望学习到一个过于复杂的模型去细化区分同一个目标（如猫）在经过平移、旋转、形变之后与“原样”的不同，而是只追求对其进行粗粒度的分类（如只要识别出猫、狗这些物种种类别）。在这个目标下，进行上述的变换是不影响人们对其类别判断的，所以这些变换可以看作约束模型学习到相应的“不变性”。即不变性是人赋予的一种主观属性。这种约束实际上是为了保证学习出的模型具有更强的泛化性或鲁棒性，以减少过拟合的情形。如果相应的变换操作对特定任务不能保证一定的”不变性“，就不能提高模型泛化性。

2024-11-18 16:48:00 72

原创异常点检测

【代码】异常点检测。

2024-11-06 15:43:51 83

原创【大模型】训练-知识蒸馏

因此，我们可以先训练好一个teacher网络，然后将teacher的网络的输出结果 q作为student网络的目标，训练student网络，使得student网络的结果p 接近 q。软标签蒸馏：教师模型生成的预测概率分布（软标签）用于指导学生模型的训练，而不仅仅是原始的硬标签。思想：用大模型指导小模型训练，将大模型的知识迁移到小模型上，使得小模型减少即使算资源的同时尽量接近大模型的性能。关系蒸馏：教师模型的样本之间的关系用于指导学生模型的训练。特征蒸馏：教师模型的中间层特征用于指导学生模型的训练。

2024-11-06 15:43:33 356

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

coco数据集转yolo格式，自己转的（和yolov1.0提供的不太一样）

csdn圣诞节活动：圣诞树代码

pascal-5i数据集

手写数字识别代码，自己跑过，能使，不好使可以问我

ISBI 2015 数据集（上）

ISBI 2015 数据集（下）

空空如也