自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(375)
  • 资源 (4)
  • 收藏
  • 关注

原创 部署http服务

通过命令行python3.8 model/utils/test_http_dtw.py运行上述代码。使用flask搭建一个http服务,能够通过本地的另外一个终端访问对应接口,拿到服务端的计算结果。创建一个test_http_dtw.py并运行。

2025-06-12 16:14:34 198

原创 算法性能分析

比如图中使用cprofile分析,分析可知第二行的东西调用了4次,一共耗时0.533s。实际工程中有多个算法,可以通过分析工具分析。

2025-06-05 16:43:25 125

原创 window/linux ollama部署模型

{"role": "system", "content": "你是一个AI助手"},{"role": "user", "content": "你好,介绍一下你自己"}

2025-06-02 21:15:42 132

原创 rag分类

模块化,rag的各个阶段被分成了多个模块类,模块和算法质检不再有固定的选择和顺序流程。索引 检索 生成,顺序执行。对索引 检索 生成进行优化。

2025-05-21 17:25:57 25

原创 rag中的难点和挑战

5)检索中的错误传播。例如对于“云安全最佳实践”的查询,如果检索到的关于“双因素验证”(一种云安全的身份验证方法)的段落排在不那么重要的段落后面,那么最终的输出可能会低估“双因素验证”的重要性。例如,检索到的段落可能提供了多种关于“图机器学习方法”的观点,如果生成的输出只是重复这些观点,而没有提供额外的信息,那么增强处理相当于没有实质的价值。例如,数据库中的一篇关于“全球变暖”的文章的局部信息和查询“极地冰川融化”的相似性很高,但是搜索机制可能会依据全局的相似性,而忽略了这种局部的相似性。

2025-05-15 11:00:01 34

原创 rag召回

定义对称检索:根据查询内容检索出同义句,如根据“How to learn Python online?”检索出“How to learn Python on the web?非对称检索:根据问题检索答案。RAG场景下,向量召回环节本质上进行的是非对称检索对称检索只需要模型具有内容抽象能力,但是非对称要求模型能够将问题和答案映射到统一空间,这需要模型经过大量的qa对训练优化手段。

2025-05-15 10:31:16 23

原创 rag文本切块

处理Python代码、Markdown、LaTeX的方法非常简单,针对不同的文本类型默认设置了不同的分割符列表,然后进一步调用固定大小文本切块方法。此外,LangChain还为用户预定义了其他常用编程语言(如Go、C++、Java)的分割符列表,但并未定义分割这些编程语言文本的类接口。大模型应用开发框架LangChain为用户提供了RecursiveCharacterTextSplitter文本切分方法,在尽量保证上下文完整性的情况下,允许文本块的大小略微偏离预设大小。

2025-05-14 16:08:54 28

原创 【AI知识库云研发部署】RAGFlow + DeepSeek

这里用cvm没用云研发的原因是云研发已经是容器环境了,不支持docker in docker。在云服务器 CVM (cpu版)中,克隆 RAGFlow 知识库:git clone。通过screen后台运行ollama:screen -S ollama。从本地浏览器直接访问cvm,比如我的cvm是9.34.5.10,则访问。到这一步基本完成了,回到主页开始上传文档,然后开始rag问答。结束所有ollama进程:pkill -f ollama。由于用的模型很拉垮,这里会很慢,耐心等待。注意等待文档解析完成。

2025-05-06 17:19:17 492

原创 llama_index ImportError: cannot import name ‘BaseQueryEngine‘ ...due to a circular import

llama_index 0.9.21版本中存在循环依赖。当 Python 解释器执行到。模块的初始化流程被中断,导致。

2025-04-22 17:37:05 236

原创 阿里云rerank模型调用

文本排序模型 (Text ReRank Model),通常用于语义检索场景,模型可以简单、有效地提升文本检索的效果。给定查询 (Query) 和一系列候选文本 (Documents),会根据与查询的语义相关性从高到低对候选文本进行排序。

2025-04-21 14:42:23 334

原创 【基于规则】基于距离的相似性度量

之间的距离,用来度量两条曲线的相似性。这类算法的精确度取决于选点的规则,以及距离的计算方式。欧几里得距离:不允许时间偏移,直接计算两个时序数据点之间的距离,适用于长度相同的序列。dtw:优化了选点的方式(能够匹配波峰波谷),允许时间偏移,计算复杂度O(nm。基于点:设时两条序曲线分别为X,Y,在曲线上选取点Xx和Yy,计算。之间的距离,包括hausdorff、frechet距离。Hausdorff距离 == d11和d23的最大者。基于分段:单向距离,lip距离,

2025-04-08 14:37:22 47

原创 时序数据异常检测-综述

基于统计学/分布:当数据点的数值超出分布时判定为异常n-sigma:假设正态分布原理四分位数法(iqr/箱型图法):不假设分布,非参数化方法,原理GESD:假设检验判断观察值是否偏离数据集平均水平mad法:样本均值用样本中位数代替,样本标准差用样本MAD(Median Absolute Deviation)代替概率估计法(通常会取log):对于n维高斯分布数据,可以计算每个维度的均值和方差,并通过概率值大小判断是否异常。缺点是没有考虑属性间关联性基于相似性度量降噪滑动平均:参数敏感。

2025-04-08 10:54:22 505

原创 互斥锁/读写锁实战

假如原代码为这段代码通过global_conf() 读取全局变量,初始化时通过set_global_conf() 设置全局变量的初始值,并配合回调函数cb() 更新全局变量。

2025-03-31 16:31:02 278

原创 pip install cupy报错

cupy 需要与 CUDA 版本匹配,根据 nvidia-smi 的输出,CUDA 版本是 12.2,因此需要安装支持 CUDA 12.2 的 cupy 版本。注意就是x,不是pip install cupy-cuda122。

2025-03-14 10:00:01 378

原创 transformer如何处理word embedding和sentence embedding

假设句子是:“猫躺在沙发上,狗在啃骨头。Transformer 通过。

2025-02-27 10:28:29 1013

原创 神经网络参数量计算

算一个只有两层的神经网络的参数量,我们需要考虑两层之间的连接权重和偏置项。

2025-02-26 11:24:44 582

原创 报错:Argument for @NotNull parameter ‘module‘ of com/intelli/lopenapi/roots/ModuleRootManager.getinsta

评论提到:新的运行配置与旧的配置参数相同,但生成的 XML 文件却不同,因此我猜测这个问题是运行配置损害或者不兼容,尝试创建新的运行配置。这个报错是不能通过删掉.idea或者通过什么File -> Project Structure-> ...进行解决。

2025-02-24 09:59:34 643

原创 报错:no matching host key type found

服务器只支持较老的加密算法(如 ssh-rsa 或 ssh-dss),而本地客户端由于安全原因默认禁用了这些算法。因此,客户端无法与服务器协商成功。找到路径下config文件,添加以下配置在开头后保存文件。(如果没有config文件,则新建即可)方案一,在命令行中强制启用旧的加密算法,比如scp命令中。可能发生在scp或其他方式连接服务器时。在终端输入命令open ~/.ssh。方案二:修改ssh文件。

2025-02-08 11:41:38 1159

原创 多分类交叉熵与稀疏分类交叉熵

稀疏分类交叉熵内部会将整数标签转换为 One-hot 编码,而如果标签已经是 One-hot 编码的形式,再使用稀疏分类交叉熵就会多此一举。假设我们有三个类别:A、B 和 C。对于某个样本,其真实标签为 B。其中 y 是真实标签的整数值,在这个算例中,真实标签为B,模型输出的预测概率q(B)=0.7。其中p是真实分布(One-hot 编码),q是预测分布,那么预测概率的向量为。

2024-12-12 14:37:49 280

原创 【工程】时序相似性测量-流数据+分布式系统

范数和基于相关性的距离提供了精确的增量表达式,内存消耗最小,计算工作量也小。相比之下,基于ESM(弹性相似性度量) 的计算复杂性使得在处理长时间序列时计算量较大,然而基于esm的算法效果确实比其他的好。在线设置中时间序列之间相似性的主要度量:基于形状的模型,这些 ESM 之间的基本差异在于它们可以处理的。文献[1]在流数据中实现dtw,所用数据是心电图。) 和带实数惩罚的编辑距离 (ERP。要么减少学习方法中的 ESM 计算次数。)、实数序列编辑距离 (EDR。,要么加快 ESM 计算本身。

2024-12-03 10:26:29 62

原创 时间序列相似性综述

陈海燕,刘晨晖,孙博.时间序列数据挖掘的相似性度量综述[J].控制与决策,2017,32(01):1-11.DOI:10.13195/j.kzyjc.2016.0462.孙冬璞,曲丽.时间序列特征表示与相似性度量研究综述[J].计算机科学与探索,2021,15(02):195-205.背景:数据分析前,如果能舍弃相似度偏低的序列数据,能够提高后续分析的精度和效率。

2024-12-02 15:19:35 120

原创 【工程】服务器运算速度测试

在远程服务器上运行代码。

2024-11-29 10:56:45 107

原创 【基于规则】iqr

【代码】【基于规则】iqr。

2024-11-25 15:41:42 118

原创 【基于规则】n-sigma

假设我们有一组数据,其均值为μ,标准差为σ。若z=1.2,说明该数据点在1σ和2σ之间(位于均值 μ 加上 1.2 个标准差)这称为68-95-99.7法则(Empirical Rule)。

2024-11-25 15:02:02 176

原创 【基于规则】滑动平均

加权移动平均给固定跨越期限内的每个变量值以相等的权重。其原理是:历史各期产品需求的数据信息对预测未来期内的需求量的作用是不一样的。除了以 n 为周期性变化外,远离目标期的变量值的影响力相对较低,故应给予较低的权重。(一次移动平均法)是收集一组观察值,计算这组观察值的均值,利用这个均值作为下一期的预测值。

2024-11-25 14:54:02 86

原创 DTW加速计算

优化了选点的方式(能够匹配波峰波谷),允许时间偏移,计算复杂度O(nm)

2024-11-25 14:33:09 229

原创 【基于规则】余弦相似度

把时序数据看作高维向量(连续函数看作连续无穷维向量),衡量两个向量之间的夹角,忽略其幅值特点。基于点乘,观察者(基)足够多,能够围观到真相。在数学上,本质还是求两条曲线之间的面积,和基于距离中的某些方法是异曲同工之妙。上方为正,下方为负,

2024-11-25 14:23:53 50

原创 小波变换/去噪

基于傅立叶变换可用于去噪等采用塔式分解,能够同时得到时间和频率的信息,小波就是一系列的观察者,算法效果取决于选取的小波种类、选取的分量(峭度)

2024-11-22 16:11:13 58

原创 机器学习评价标准

机器学习作为算子引入工程,必然要有方法评价模型的有效性,通常从两个方面进行考虑:

2024-11-19 16:25:24 343

原创 用户留存及影响因子(KM生存分析、Cox比例危害模型)

目标:获取每个时间点(入会月数)上发生停付事件的概率。

2024-11-19 16:02:09 191

原创 dropout层/暂退法

Hinton 的这个灵感来自银行的防欺诈机制。他去银行办理业务时,发现柜员不停地换人。他就猜想,银行工作人员要想成功欺诈银行,他们之间要互相合作才行,因此一个柜员不能在同一个岗位待得过久。这让他意识到,在某些神经网络层中的各个神经元之间的参数可能也是针对训练数据集形成了某种“固定套路”,那么,随机删除一部分神经元,就有可能打破这些套路,阻止它们的“阴谋”,从而降低过拟合。正则化的目的是为了让模型粗糙一点儿,不要过分追求完美。作用:正则化,缓解过拟合。

2024-11-18 16:59:45 372

原创 数据增强概念

实际上,这也可以理解成减少模型的复杂度:不希望学习到一个过于复杂的模型去细化区分同一个目标(如猫)在经过平移、旋转、形变之后与“原样”的不同,而是只追求对其进行粗粒度的分类(如只要识别出猫、狗这些物种种类别)。在这个目标下,进行上述的变换是不影响人们对其类别判断的,所以这些变换可以看作约束模型学习到相应的“不变性”。即不变性是人赋予的一种主观属性。这种约束实际上是为了保证学习出的模型具有更强的泛化性或鲁棒性,以减少过拟合的情形。如果相应的变换操作对特定任务不能保证一定的”不变性“,就不能提高模型泛化性。

2024-11-18 16:48:00 72

原创 异常点检测

【代码】异常点检测。

2024-11-06 15:43:51 83

原创 【大模型】训练-知识蒸馏

因此,我们可以先训练好一个teacher网络,然后将teacher的网络的输出结果 q作为student网络的目标,训练student网络,使得student网络的结果p 接近 q。软标签蒸馏:教师模型生成的预测概率分布(软标签)用于指导学生模型的训练,而不仅仅是原始的硬标签。思想:用大模型指导小模型训练,将大模型的知识迁移到小模型上,使得小模型减少即使算资源的同时尽量接近大模型的性能。关系蒸馏:教师模型的样本之间的关系用于指导学生模型的训练。特征蒸馏:教师模型的中间层特征用于指导学生模型的训练。

2024-11-06 15:43:33 356

原创 efficient teacher

如果我们只保留分数高于某个阈值的伪标签,这可能导致模型越来越偏向于生成高分数的伪标签,因为这些高分数的伪标签在训练过程中会得到强化(它们被认为是"正确"的)。而单阶段的检测器,这种基于学生-教师相互学习的机制会导致其在整个训练过程中难以稳定的训练,即教师模型生成的伪标签的数量和质量波动很大,其产生的不合格伪标签便会持续误导模型的更新。这个过程中,我们也少量标注了一些新的验证集来验证半监督训练的效果,原因是半监督训练往往不太影响模型在原有验证集上的表现,而是加强模型在分布外验证集上的效果。

2024-11-06 15:43:06 1215

原创 使用Pytorch Geometric建立异构图HeteroData数据集

点和边对应的值(如[1,3] 或 torch.randn(1,2))会各自存在stores和edges_stores下,一般存储的类型是tensor,这里为了方便对比学习,在这用了一个数组。类似字典,.point会使得data内部的keys增一个'point',key叫什么可以自己定义。data['user']会使得data内部node_types增加'user'

2024-11-06 15:42:17 518

原创 半监督基本概念

平滑假设(smoothness assumption):如果两个样本在输入空间中相似,其标签也应该相似;聚类假设(low-density assumption):当两个样例位于同一聚类簇时,很大的概率下有相同的类标签。聚类假设也可以被视为低密度分离假设,即:给定的决策边界位于低密度地区。流形假设(manifold assumption):同一个低维流形(manifold)上的样本应该包含相同的标签;

2024-11-06 15:41:32 80

原创 lstm-ae代码实现

【代码】lstm-ae代码实现。

2024-11-06 15:27:05 168

原创 ctgan代码实现

【代码】ctgan代码实现。

2024-11-06 15:26:23 224

原创 集成学习-森林-代码实现

【代码】集成学习-森林-代码实现。

2024-11-06 15:24:30 53

coco数据集转yolo格式,自己转的(和yolov1.0提供的不太一样)

自己用代码跑出来的,train包含118289个,val包含5000个,同时有class.txt,train.txt, val.txt 不知道为啥yolov1.0提供的比较少,所以上传一下自己的,如果想要官方转的可以github上搜索

2023-04-28

csdn圣诞节活动:圣诞树代码

发发发

2022-12-03

pascal-5i数据集

小样本学习常用数据集

2022-07-08

手写数字识别代码,自己跑过,能使,不好使可以问我

手写数字识别代码,数据集另发

2022-06-12

ISBI 2015 数据集(上)

训练集共160张左右,带标注 测试集也有160左右,但是不带标注,故不上传 资源设置免费,但是担心csdn收费,这里放出原网址 https://cs.adelaide.edu.au/~zhi/isbi15_challenge/dataset.html

2022-05-25

ISBI 2015 数据集(下)

训练集共160张左右,带标注 测试集也有160左右,但是不带标注,故不上传 资源设置免费,但是担心csdn收费,这里放出原网址 https://cs.adelaide.edu.au/~zhi/isbi15_challenge/dataset.html

2022-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除