自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

井底小蛙的博客

本博客用于算法经验的记录和分享交流

  • 博客(47)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 大模型微调算法原理:从通用到专用的桥梁

本文聚焦大模型落地中的核心矛盾——理论快速发展与实际应用需求之间的脱节,并系统探讨微调技术作为解决这一矛盾的关键手段。尽管大模型展现出强大的通用能力,但其在垂直领域的直接应用仍面临适配性不足、计算成本高等挑战。微调通过在预训练模型基础上进行针对性优化,平衡通用知识与领域需求,成为实现高效部署的核心技术1)本文重点:本文系统梳理微调方法论,旨在为研究者和开发者提供技术选型方法论支持;2)本文缺陷:本文重方法论和思路梳理,不注重数学推导和代码实现;由于笔者才疏学浅,如有错误或疏漏敬请批评指正。

2025-05-10 12:54:29 1051

原创 在 GitLab 中部署Python定时任务

在Python脚本中添加异常捕获,确保任务失败时能通知(如通过GitLab告警或邮件)。:如PostgreSQL、MySQL(需配置GitLab Runner访问权限)。在流水线中输出关键指标(如执行时间、结果统计),通过CI/CD变量记录。中部署定时任务(如每天早8点运行Python脚本并存储结果)可以通过。更灵活,但需额外配置数据库连接(如通过环境变量传递密码)。结果文件会保存在流水线页面,可直接下载,适合临时存储。:将结果保存为文件(如JSON/CSV)并提交到仓库。,可以高效实现定时脚本运行。

2025-05-06 13:46:55 901

原创 隐马尔可夫模型、贝叶斯概率模型与条件随机场三种概率图模型的比较

均基于概率图模型框架,解决不确定性推理问题;在序列建模任务中表现出色(HMM与CRF);依赖图结构表达变量间的依赖关系。

2025-03-14 10:13:51 682

原创 评估特征与二分类标签之间相关性的方法

通过综合使用统计检验、信息论和模型驱动方法,可全面评估特征与二分类标签的相关性。:先用快速方法(如卡方检验)初筛,再用计算密集型方法(如互信息)细选。:基于决策树(如随机森林、XGBoost)的分裂增益评估特征贡献。:同时评估多个特征时需校正p值(如Bonferroni校正):区分连续/离散特征选择合适方法(如卡方检验仅用于分类特征):任意特征类型(连续/离散)与二分类标签的非线性关系。:标准化均值差异,衡量二分类标签下连续特征的效应大小。:计算连续特征与二分类标签的线性相关性。

2025-03-03 14:00:53 766

原创 高斯平滑(Gaussian Smoothing)原理详解

高斯平滑通过模拟人眼对邻近信息的感知方式(近处细节清晰,远处模糊),利用高斯核的加权平均特性,在去噪与保留细节之间取得平衡。对称性:高斯函数在空间域是各向同性的(圆形对称),适用于图像中无方向性的平滑需求。,对邻域内的像素赋予不同的权重,距离中心像素越近的点权重越高,越远的点权重越低。其核心是利用高斯函数的。:抑制图像的高频分量(如噪声、锐利边缘),保留低频分量(平缓变化的区域)。σ(标准差):控制分布的宽度,σ越大,曲线越平缓,平滑效果越强。σ越大,高斯核覆盖范围越广,平滑效果越强,但细节损失更多。

2025-02-26 17:07:01 1759

原创 Python 计算两个时间序列信号的相似性(KL散度方法)

相对熵(Relative Entropy),也称为Kullback-Leibler散度(Kullback-Leibler Divergence, KL散度),是衡量两个概率分布之间差异的一种方法。对于时间序列数据,可以通过将时间序列转换为概率分布(例如通过直方图或核密度估计),然后计算它们的KL散度来评估相似性。KL散度要求 Q(i)Q(i) 不能为零,否则计算会出错。可以通过平滑处理(如添加一个很小的值)来避免零值。

2025-02-11 14:01:11 511

原创 ChatGPT是强人工智能吗?

ChatGPT是强人工智能吗?本文从人工智能发展的三个阶段的角度,分析当前强大的AI大模型所处的阶段,并通过对比各阶段的定义,明确各阶段的特点和未来发展方向;Narrow AI(弱人工智能)、AGI(人工通用智能)和 ASI(人工超级智能)代表了人工智能发展的三个不同阶段,它们在智能水平、任务范围和应用场景上存在显著差异。

2025-01-22 14:49:08 1399

原创 Kmeans与KMedoids聚类对比以及python实现

K-Means 和 K-Medoids 都是常用的聚类算法,它们各有优缺点,适用于不同的场景。K-Means 算法计算效率高,适用于大规模数据集和凸形簇,但对噪声和异常值敏感。K-Medoids 算法对噪声和异常值不敏感,适用于小规模数据集和任意形状的簇,但计算复杂度较高。在实际应用中,需要根据具体问题选择合适的算法。

2025-01-22 10:03:29 684

原创 混淆矩阵与二分类评估指标(精确率、查准率、查全率、误报率、漏报率、F1分数)

混淆矩阵是二分类问题中用于直观展示模型性能的二维矩阵,包含真正例、假正例、假负例和真负例四个元素。基于混淆矩阵,我们可以计算出准确率、精确率、召回率和F1值等二分类评估指标,这些指标从不同角度反映了模型的性能。通过分析这些指标,我们可以了解模型在不同类别上的分类情况,发现模型的不足之处,并有针对性地进行改进,从而提高模型的预测性能。

2025-01-07 11:52:57 1195

原创 时序数据——异常类型及异常检测思路

时序数据异常检测是指在时间序列数据中识别出不符合预期模式的点或序列的过程。时序异常基于异常的特性和表现形式,可以分为"点异常","上下文异常","模式异常"三种类型;本文介绍时序数据三种异常类型,及对应检测时序异常的技术路线;1)本文重点:重点研究时序数据异常类型,及相应异常检测技术路线;2)本文缺陷:不探讨具体异常检测方法,由于笔者才疏学浅,如有疏漏敬请指正。

2025-01-03 17:15:08 1219

原创 从RNN循环神经网络到长短时记忆网络LSTM

本文从一个简单的例子出发,介绍了RNN及其两种变体LSTM和GRU的基本原理,了解循环神经网络能够解决什么问题,以及能够应用在哪些领域。1)本文重点:本文重点研究RNN及其变体的原理和解决的问题;2)本文缺陷:本文为有倾向性的知识整理;由于笔者才疏学浅,重文字描述轻数学推导。前馈神经网络(feedforward neural network)是深度学习中最简单,也是最基础的网络结构,很多神经网络的变体,都是由前馈神经网络发展而来;

2024-12-31 15:51:02 1478

原创 广义加性模型(GAM)原理简介及其Python实现

本文旨在深入探讨线性回归模型在解决实际问题中所面临的局限性,并以此作为出发点,详细阐述广义加性模型(Generalized Additive Model, GAM)如何有效地解决这些问题。通过逐步介绍GAM的核心思想、基本原理,以及基于pygam模块的Python实现,期望提供一个对GAM全面而深入的理解。1)本文重点:本文重点研究广义加性模型的核心思想与pygam实现;2)本文缺陷:原理介绍用于辅助核心思想理解,不做详细推导,由于笔者才疏学浅,如有疏漏敬请批评指正。

2024-12-31 10:08:59 4205

原创 Apline linux 安装scikit-learn 过程记录

本文记录了在Apline linux 安装scikit-learn时,踩坑填坑的过程,记录下来避免未来踩同样的坑~

2024-12-25 14:41:25 495

原创 Python国内10个镜像源-地址汇总以及测评

在Python开发环境中,选择合适的镜像源对于确保包的快速和可靠下载至关重要。以下是一些国内主要且广泛使用的Python镜像源地址,以及对每个镜像源的优势的对比;

2024-12-20 11:08:33 8613 1

原创 XGBoost:从决策树到极限梯度提升树

本文以决策树为出发点,以集成学习的发展路径为脉络,介绍XGBoost算法的优化思路及相关知识;

2024-12-06 16:27:51 1963 1

原创 类别特征编码 ———特征工程

特征工程中,对类别型特征进行编码的12种方式

2024-08-23 17:53:20 1257 1

原创 最小二乘法——参数估计过程推导

最小二乘法逐步推导过程记录

2023-08-24 14:16:37 2370

原创 OLS回归分析理论基础

由于目前的实证研究中需要对变量间的因果关系进行定量分析,所以以伍德里奇和陈强两版本计量经济学教材为基础,有针对性的整理出OLS回归的相关知识,以解决实证分析中的实际问题。1)本文重点:本文重点研究OLS下面板数据的有效性,重点关注遗漏变量问题2)本文缺陷:本文为有倾向性的知识整理,并非两本教材的整体综述;由于笔者才疏学浅,重文字描述轻数学推导。

2023-07-03 09:14:45 8723 1

原创 TOPSIS综合评价模型Python实现

1.TOPSIS法介绍2. 计算步骤(1)数据标准化(2)得到加权后的矩阵(3)确定正理想解和负理想解(4)计算各方案到正(负)理想解的距离(5)计算综合评价值3.实例研究3.1 导入相关库3.2 读取数据3.3 读取行数和列数3.4 数据标准化3.5 得到信息熵3.6 计算权重3.7 计算权重后的数据3.8 得到最大值最小值距离3.9 计算评分总代码。TOPSIS法 —— python_洋洋菜鸟的博客-CSDN博客_topsis python。

2023-02-08 13:11:35 2202

转载 偏导数概念及题例转发

偏导数的概念以及例题转载

2022-12-01 11:34:22 311

原创 灰色关联度与最大互信息系数的python简单实现

【代码】灰色关联度与最大互信息系数的python简单实现。

2022-10-20 10:16:54 770

转载 信号EMD模态分解python简单实现

【代码】信号EMD模态分解python简单实现。

2022-08-23 17:37:57 2852

转载 卡尔曼滤波信号预测python 简单实现

【代码】卡尔曼滤波信号预测python 简单实现。

2022-08-23 17:27:58 1291

转载 python scipy 实现信号滤波功能

通过python的scipy接口,对一维数组实现:低通滤波、高通滤波、带通滤波、带阻滤波功能。

2022-08-19 17:03:39 3759 1

原创 Python使用MICE填充缺失值的简单实现

Python使用MICE填充缺失值的简单实现。

2022-07-21 14:59:23 2742 5

原创 TCN时空卷积网络 python 简单实现

本文基本参照 【python量化】用时间卷积神经网络(TCN)进行股价预测_敲代码的quant的博客-CSDN博客_卷积神经网络对时间序列的预测对TCN时空卷积网络进行简单的python实现,用于理解TCN网络运行机制并以备后查,运行环境为python3.8.6 ,创建项目目录如下: 1.其中test.csv和train.csv分别为测试和训练数据,为随机创建的回归数据,columns =[a1,a2,a3,a4,a5,a6,a7,a8,y] 其中y是标签列;2.run.py为执行脚本,实现训练-输出

2022-06-22 11:29:52 3591 7

转载 tensorflow mnist数据集全连接神经网络 python简单实现

#coding:utf-8import tensorflow as tffrom tensorflow import kerasfrom keras import layers"""基于tensorflow框架/mnist数据集,建一个三层全连接神经网络的10分类模型;python代码的简单实现参考文献:Tensorflow文档 函数式API部分 https://tensorflow.google.cn/guide/keras/functional详细解释:Epoch、batc.

2022-05-10 17:44:38 373

原创 python 字典简单实现Switch Cash

"""python 字典实现Switch Cash"""def func_1(str): str = str.replace("a","") return strdef func_2(str): str = str.replace("a", "aa") return strdef notify_result(type, str): types = { "f1" : func_1, "f2": func_2, }..

2022-02-28 14:05:06 392

转载 catBoost regression Python 简单实现

# coding:utf-8import timenotebookstart = time.time()import pandas as pdfrom sklearn import metricsfrom catboost import CatBoostRegressorfrom pylab import *mpl.rcParams['font.sans-serif'] = ['SimHei'] #绘图正常显示中文"""catboost 回归简单实现"""######1.加载数据.

2022-02-24 17:22:18 1426 2

转载 kaggle支付反欺诈:IEEE-CIS Fraud Detection第一名方案 特征处理代码

import pandas as pdimport numpy as np"""kaggle支付反欺诈:IEEE-CIS Fraud Detection第一名方案 特征处理"""###### 1.加载数据df_train = pd.read_csv(r"C:\Users\ld\Desktop\yc18\train1.csv",encoding="cp936")df_test = pd.read_csv(r"C:\Users\ld\Desktop\yc18\test1.csv",encodi.

2022-02-23 15:45:23 927

原创 ARIMA模型的Python实现

from __future__ import print_functionimport pandas as pdimport matplotlib.pyplot as pltimport statsmodels.api as smfrom statsmodels.tsa.arima_model import ARIMA"""ARIMA模型Python实现ARIMA模型基本假设: 1.数据平稳性 2.白噪声同方差 3.数据无周期性参考文献: https:.

2022-02-18 17:36:02 15573 23

转载 ACF自相关函数和PACF偏自相关函数(转载)

自相关函数 (ACF) - Minitab解释偏自相关函数 (PACF) - Minitab

2022-02-18 10:17:18 942

转载 多重共线性如何影响显著性?(转载)

怎么“调整”显著性:理解多重共线性 - 知乎多重共线性,是我们学习计量几乎入门时就会接触的一个专业名词。对多重共线性的认识,仅限于在做回归时看一看相关性系数表(而且一般都不会有问题),再了不起的就是算一下VIF。但其实对它并没有一个直观的认识。…https://zhuanlan.zhihu.com/p/360436120...

2022-02-18 09:23:10 1106

转载 特征工程详解(转发)

【特征工程】呕心之作——深度了解特征工程 - it610.com

2022-02-10 14:44:06 130

原创 Xgboost回归四种调参方法及Python简单实现

前言Xgboost对特征工程和数据处理比较友好,相比之下调参成为用好Xgboost重要的一环,本文分别从参数、调参方法、Python实现的维度进行梳理,作为调参思路的记录。本文将关注以下几个问题:1.Xgboost哪些参数需要调参?2.通用的调参方法有哪些 ? 如何实现?Xgboost哪些参数需要调参?下表列出了 xgboost 0.90版本下 xgboost.sklearn 中 XGBBaseModel 的所有输入参数;根据对全部31个参数功能的初步了...

2022-01-25 08:45:14 23356 16

原创 全连接神经网络-------多元回归预测的简单实现

用全连接神经网络做多元回归预测的简单实现#coding:utf-8from keras.models import Sequentialfrom keras.layers import Dense, Dropoutfrom sklearn.preprocessing import MinMaxScalerfrom keras.models import load_modelimport pandas as pdimport matplotlib.pyplot as plt"""实现功能

2021-12-13 11:25:45 5673 2

原创 文本匹配算法综述

文本匹配任务在自然语言处理中是非常重要的基础任务之一,有很多应用场景;如信息检索、问答系统、文本数据去重等。文本匹配算法按有无训练集可分为有监督算法和无监督算法;按算法的发展阶段可分为传统算法和深度算法。常见的算法如下:...

2021-07-09 14:48:15 10161

转载 为什么有人说 Python 的多线程是鸡肋呢?(转载)

作者:DarrenChan陈驰链接:https://www.zhihu.com/question/23474039/answer/269526476来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全局解释器锁(GIL)。Python代码的执行由Python虚拟机(解释器)来控制。Python在设计之初就考虑要在主循环中,同时只有一个线程在执行.

2021-05-10 10:27:28 179

转载 模型融合之STACKING方法

本文参考了Kaggle机器学习之模型融合(stacking)心得stacking是用于模型融合的一个大杀器,其基本思想是将多个模型的结果进行融合来提高预测率。,理论介绍有很多,实际的例子比较少,本文将其实例化,并给出详细的代码来说明具体的stacking过程是如何实现的。stacking理论的话可以用下面的两幅图来形象的展示出来。结合上面的图先做一个初步的情景假设,假设采用5折交叉验证:训练集(Train):训练集是100行,4列(3列特征,1列标签)。测试集(Test):测试集是30行

2021-03-25 16:24:12 11249 3

转载 生成模型和判别模型的区别

生成模型和判别模型的区别,可以结合下图进行理解机器学习的任务是从属性X预测标记Y,即求概率P(Y|X);对于判别式模型来说求得P(Y|X),对未见示例X,根据P(Y|X)可以求得标记Y,即可以直接判别出来,如上图的左边所示,实际是就是直接得到了判别边界,所以传统的、耳熟能详的机器学习算法如线性回归模型、支持向量机SVM等都是判别式模型,这些模型的特点都是输入属性X可以直接得到Y(对于二分类任务来说,实际得到一个score,当score大于threshold时则为正类,否则为反类)~(根本原.

2021-03-24 11:43:41 358

主要介绍了机器学习项目开发流程

根据开展一个机器学习项目的流程顺序,介绍了机器学习项目开展各个阶段的要素

2022-01-25

WEKA软件使用详细教程

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品.

2018-03-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除