自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(241)
  • 资源 (1)
  • 收藏
  • 关注

原创 【已解决】TF2.2.0+python>3.8下LSTM报错

解决TF2.2.0+python>3.8下LSTM的报错

2023-07-03 10:48:38 878

原创 【动态绘图】python可视化--丝滑版

【动态绘图】python可视化--pynimate

2023-03-28 16:04:23 996 1

原创 【ChatGPT】比尔·盖茨最新分享:ChatGPT的发展,不止于此

本文内容:介绍 比尔·盖茨关于ChatGPT的最新分享:ChatGPT的发展,不止于此

2023-03-25 18:15:10 4340 1

原创 【技巧】十大深度学习技巧和经验总结

介绍称霸Kaggle的十大深度学习技巧和经验总结

2023-03-22 09:38:09 1222

原创 【绘图】比Matplotlib更强大:ProPlot

介绍ProPlot9大亮点+python代码

2023-03-19 17:08:41 2251

原创 【附代码】python采样方法集锦

介绍7种主要的采样方法,并给出python代码示例。

2023-03-19 16:16:28 3877

原创 少样本学习综述

元学习是FSL的一种流行方法,它涉及到在各种相关任务上训练模型,以便它能够学习如何有效地学习新任务。该算法学习从可用数据中提取任务无关和任务特定的特征,快速适应新的任务。是一种流行的基于梯度的元学习算法,它学习如何优化模型的参数以快速适应新任务。它通过一系列相关任务来训练模型,并使用每个任务中的一些示例来更新模型的参数。基于度量的元学习算法学习一种特殊的方法来比较每个新任务的不同示例。在训练过程中,算法通过仅使用每个新任务的几个标记示例更新模型参数来学习适应新任务。

2023-03-18 13:12:30 409

原创 【附代码】【入门级】多任务分类学习

1.数据获取与处理使用CIFAR-10[2]数据集,该数据集根据MIT许可证提供。该数据集由60000张32x32像素的RGB图像组成,分为10个不同的类别。它被分为50000个训练样本和10000个测试样本,并且是完美平衡的,这意味着数据集包含每个类6000个图像。数据集包含以下类别:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

2023-03-16 10:33:00 750

原创 常用的八大概率分布及其实现

A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总的频数,p为理论频率,那么n*p自然就是理论频数(理论值)n 是称为“自由度”的参数,有时可以看到它被称为“d.o.f.” 对于较高的 n 值,t 分布更接近正态分布。t 分布是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。要注意的是,在正态分布中,均值、众数和中位数都是相等的。卡方检验的基本公式,也就是χ2的计算公式,即观察值和理论值之间的偏差。P = 二项分布概率。

2023-03-14 09:54:50 729

转载 【综述】多任务学习

MT-DNN[1] 是微软开源的框架,主要是利用学习文本的自然语言理解任务通常可以利用多任务学习和预训练两种途径解决的思想,因此二者的结合可以增强文本理解能力,基于以上提出 MT-DNN 框架,集成了 MTL 和 BERT 语言模型预训练二者的优势,在 10 项 NLU 任务上的表现都超过了 BERT,并在通用语言理解评估(GLUE)、斯坦福自然语言推理(SNLI)以及 SciTail 等多个常用 NLU 基准测试中取得了当前最佳成绩。在该权重设置下,虽然每个任务的损失函数恒为 1 ,但是梯度不为 0。

2023-03-12 16:27:48 4576

原创 【数据分析】常见数据降维技术比较

我们比较了一些降维技术的性能,如奇异值分解(SVD)、主成分分析(PCA)和线性判别分析(LDA)。我们的研究结果表明,方法的选择取决于特定的数据集和手头的任务。对于回归任务,我们发现PCA通常比SVD表现得更好。在分类的情况下,LDA优于SVD和PCA,以及原始数据集。线性判别分析(LDA)在分类任务中始终击败主成分分析(PCA)的这个是很重要的,但这并不意味着LDA在一般情况下是一种更好的技术。

2023-03-08 15:10:31 366

原创 【时序】时序预测任务模型选择如何选择?

时间序列是一种特殊类型的数据集,其中一个或多个变量随着时间的推移被测量。在时间序列中,观测值是随着时间的推移而测量的。你的数据集中的每个数据点都对应着一个时间点。这意味着你的数据集的不同数据点之间存在着一种关系。这对可以应用于时间序列数据集的机器学习算法类型有重要影响。

2023-03-08 14:41:58 1012

原创 【时序】特征工程-时间序列特征构造

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是什么?特征工程又包含了 Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和 Feature construction(特征构造)等子问题;本章内容主要讨论特征构造的方法。时间特构造以及时间序列特征构造的具体方法:对于时间型数据来说,即

2023-03-06 21:53:20 1314

原创 【数据分析】缺失数据如何处理?pandas

本文主要处理缺失数据

2023-03-02 10:05:41 485

原创 【知识图谱】架构-特点-缺点简介

物联网、云计算、人工智能等新一代信息技术的迅猛发展,带来了制造业的新一轮突破,推动着制造系统向智能化方向发展,驱动着未来制造模式的创新。其中数据和知识是实现制造业与新一代信息技术融合的基础,是实现智能制造的保障。一方面,产品在其生命周期的各个阶段将会产生海量工业数据和知识;另一方面,工业数据和知识是制造领域的信息化进程的必备资源,其中蕴含了大量有用的模式。然而,当前制造领域产品设计、制造、装配、服务等生命周期过程中数据以及知识的存储大多以传统关系型数据库为基础。

2023-02-28 09:27:02 517

原创 【异常检测三件套】系列3--时序异常检测综述

写在前面:异常检测共包含3个内容,从多个方面剖析异常检测方法,本文为第三篇。过往内容请查看以下链接:【异常检测三件套】系列1--14种异常检测算法https://blog.csdn.net/allein_STR/article/details/128114175?csdn_share_tail=%7B%22【异常检测三件套】系列3--时序异常检测综述本文将从以下6个方面介绍:一、异常分类二、异常检测的挑战三、异常检测的模型分类四、异常检测的数据集五、异常检测的模型表现对比六、结论和未来方向

2023-02-26 14:51:15 538

原创 【持续学习】清华最新持续学习综述

学习是智能系统适应环境的基础。为了应对外界的变化,进化使人类和其他生物具有很强的适应性,能够不断地获取、更新、积累和利用知识。自然,我们期望人工智能(AI)系统以类似的方式适应。这激发了持续学习的研究,其中典型的设置是逐一学习一系列内容,并表现得就像同时观察到的一样(图1,a)。这些内容可以是新技能、旧技能的新示例、不同的环境、不同的背景等,并包含特定的现实挑战。在许多文献中,持续学习也被称为增量学习或终身学习,但没有严格的区分。与传统的基于静态数据分布的机器学习模型不同,

2023-02-22 10:00:23 2350

原创 【一文速通】五个主流过拟合解决方法

过拟合是一个需要解决的问题,因为它会让我们无法有效地使用现有数据。有时我们也可以在构建模型之前,预估到会出现过拟合的情况。通过查看数据、收集数据的方式、采样方式,错误的假设,错误表征能够发现过拟合的预兆。为避免这种情况,请在建模之前先检查数据。但有时在预处理过程中无法检测到过拟合,而是在构建模型后才能检测出来。

2023-02-20 09:57:31 304

转载 【神器】提取时间序列技术指标的神器

如果只需要使用像移动平均线这样的简单指标,这种方法实现起来比较轻松,但当我们需要使用更复杂的数学模型时,此时就会想到想是否有这样的python库来轻松实现,其实这就是API的作用,它们调解低级代码的复杂性,提供一个简化的高级接口。我们可以看到,每当我运行该算法时,就会产生一个新的时间序列,有4个维度,每个维度代表股票的一个OCHL数据。我们的假设是,当趋势的导数(也就是瞬时变化率)根据我们的参数达到最大容忍度时,是股票反转趋势的适当时机。应用该策略后,我们可以看到新的列是如何被添加到我们的原始数据集中的。

2023-02-19 08:45:39 552

原创 【机器学习数据集】如何获得机器学习的练习数据?

【机器学习数据集】如何获得机器学习和深度学习的练习数据?

2023-02-16 09:48:29 654

转载 常用统计检验Python代码!

常用统计检验Python代码!

2023-02-14 09:02:03 1285 2

原创 神经网络损失函数分布可视化神器

作者主要想研究几个问题:1. 为什么我们能够最小化高度非凸神经损失函数?2. 为什么得到的最小值这个结果具有泛化性?3. 不同的神经网络网络架构如何影响损失函数分布 (loss landascape),以及训练的超参数参数如何影响损失函数分布

2023-02-12 11:45:20 968

原创 【一文速通】各种机器学习算法的特点及应用场景

近邻 (Nearest Neighbor)KNN算法的核心思想是,如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。适用情景:由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

2023-02-10 18:27:11 877

转载 一文解答为什么时序预测很难

时空数据是一个常见的例子,每个观察值都在两个维度上相关,因此数据具有自身的滞后(时间依赖性)和附近位置的滞后(空间依赖性)。平稳性是时间序列的核心概念,如果时间序列的趋势(例如平均水平)不随时间变化,则该时间序列是平稳的。时间序列往往都只包含少量的观察值,可能没有足够的数据来构建足够的模型。多步预测最简单的方法是递归形式,训练单个模型进行单步预测,然后将模型与其先前的预测结果作为输入得到后续的输出。时间序列多步预测需要预测未来多个值, 提前预测许多步骤具有重要的实际优势,多步预测减少了长期的不确定性。

2023-02-08 09:45:03 903

原创 【附代码】python绘图集锦-排序 (Ranking)关系图

【附代码】python绘图集锦共7篇内容,本文为排序 (Ranking)关系图。

2023-02-04 09:55:41 659

原创 【附代码】python绘图集锦-偏差 (Deviation)关系图

python绘图集锦系列共7篇文章,本文为偏差 (Deviation)关系图。

2023-02-02 20:49:44 295

原创 【附代码】python绘图集锦-组成(Composition)关系图

python绘图集锦系列共7篇文章,本文为组成(Composition)关系图。【附代码】python绘图集锦-组成(Composition)关系图。1.华夫饼图(Waffle Chart)类似饼图的效果,面积大小反应变量大小。华夫饼图(Waffle Chart)展示较大数据集中的各个组的组成。4.柱状图(Bar Chart)2.饼图(Pie Chart)3.树状图(Treemap)您的支持是我坚持的动力~饼图(Pie Chart)柱状图(Bar Chart。树状图(Treemap)

2023-01-31 11:09:00 379

原创 【附代码】python绘图集锦-变化(Change)关系图

python绘图集锦系列共7篇文章,本文为变化(Change)关系图。

2023-01-29 14:17:15 402

原创 【附代码】python绘图集锦-分布(Distribution)关系图

python绘图集锦系列共7篇文章,本文为分布(Distribution)关系图。

2023-01-28 10:08:55 587

原创 【附代码】python绘图集锦-分组( Groups)关系图

python绘图集锦系列共7篇文章,本文为分组( Groups)关系图

2023-01-25 11:36:24 1374

原创 【附代码】python绘图集锦-关系Correlation图

python绘图集锦系列共7篇,本文为第1篇关系图。包括散点图,边界气泡图,散点图添加趋势线,分面散点图添加趋势线,抖动图,计数图,边缘直方图

2023-01-23 10:00:00 2084

原创 【附代码】十大经典排序算法

从时间复杂度选择:平方阶 (O(n2)) 排序:各类简单排序,直接插入、直接选择和冒泡排序;线性对数阶 (O(nlog2n)) 排序:快速排序、堆排序和归并排序;希尔排序:O(n1+§)) 排序,§ 是介于 0 和 1 之间的常数;线性阶 (O(n)) 排序:基数排序,此外还有桶、箱排序。从稳定性选择:排序后 2 个相等键值的顺序和排序之前它们的顺序相同。稳定的排序算法:冒泡排序、插入排序、归并排序和基数排序。不是稳定的排序算法:选择排序、快速排序、希尔排序、堆排序。

2023-01-21 10:00:00 1382

转载 LSTM模型结构的可视化

上面的图表示包含2个隐含层的LSTM网络,在T=1时刻看,它是一个普通的BP网络,在T=2时刻看也是一个普通的BP网络,只是沿时间轴展开后,T=1训练的隐含层信息H,C会被传递到下一个时刻T=2,如下图所示。这样的数据立方体很多,比如天气预报数据,把样本理解成城市,时间轴是日期,特征是天气相关的降雨风速PM2.5等,这个数据立方体就很好理解了。实际上,右图中,我们看Xt表示序列,下标t是时间轴,所以,A的数量表示的是时间轴的长度,是同一个神经元在不同时刻的状态(Ht),不是隐含层神经元个数。

2023-01-19 10:00:00 469

转载 9个时间序列交叉验证方法的介绍和对比

K-fold交叉验证(图6)是一种用于评估模型性能的流行技术。时间序列交叉验证(及其变体)是一个很好的选择。但是在某些情况下,K-fold交叉验证对时间序列是有用的。但是整个过程是在观测是独立的假设下进行的。所以最好选择一种尊重观察的时间顺序的交叉验证方法。改进的K-Fold交叉验证保留了过程中的打乱部分(图9)。与TimeSeriesSplits不同,每个迭代中的验证原点是随机选择的。这种方法的主要优点是所有的观测结果都在某个时刻被用于验证。一些专门设计的技术用于扩展时间序列的K-Fold交叉验证。

2023-01-17 10:00:00 1470

原创 【附代码】十大主流聚类算法

使用 make _ classification ()函数创建一个测试二分类数据集。数据集将有1000个示例,每个类有两个输入要素和一个群集。这些群集在两个维度上是可见的,因此我们可以用散点图绘制数据,并通过指定的群集对图中的点进行颜色绘制。高斯混合模型总结了一个多变量概率密度函数,顾名思义就是混合了高斯概率分布。均值漂移聚类涉及到根据特征空间中的实例密度来寻找和调整质心。使大数据集的更新速度更快,并且可能对统计噪声更健壮。光谱聚类是一类通用的聚类方法,取自线性线性代数。,您的支持是我坚持的动力~

2023-01-17 09:06:57 973

原创 14种可用于时间序列预测的损失函数

当误差被平方时,离群值被赋予更多的权重,为较小的误差创建一个平滑的梯度。鉴于错误是平方的,MSE 永远不会是负数,错误的值可以是 0 到无穷大之间的任何值。当您的预测被证明是错误的时,会出现增强的 RRMSE,并且该错误由 RRMSE 相对或以百分比表示。MSLE 将粗略地处理小的实际值和预期值之间的微小差异以及大的真实值和预测值之间的巨大差异。用于时间序列预测的机器学习或深度学习模型的一个重要组成部分是损失函数,模型的性能是根据损失函数来衡量的,促使了模型参数的更新。偏差的唯一可能方向是正向或负向。

2023-01-15 10:00:00 2495

原创 【一文速通】机器学习样本不均衡/数据分布不同怎么办?

我们通过解决样本不均衡,可以减少模型学习样本比例的先验信息,以获得能学习到辨别好坏本质特征的模型。可以将不均衡解决方法归结为:通过某种方法使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的。具体可以从数据样本、模型算法、目标函数、评估指标等方面进行优化,其中数据增强、代价敏感学习及采样+集成学习是比较常用的,效果也是比较明显的。其实,不均衡问题解决也是结合实际再做方法选择、组合及调整,在验证中调优的过程。

2023-01-13 10:00:00 1045

原创 【一文速通】数据分布不同解决办法

虽然个人建议的是删除分布不一致但不太重要的特征,但有时避免不了碰到分布不一致但又很重要的特征,这时候其实就需要自行trade off特征分布和特征重要性的关系了,比如在第四届工业大数据创新竞赛-注塑成型工艺的虚拟量测中,第5名团队保留了sensor1_mean特征而删除了pack_press_2特征,尽管他们发现pack_press_2从实际生产角度和相关性角度都非常重要,可为了提升模型在测试集的泛化能力和分数,他们没用pack_press_2特征,如图 (,如果引入低置信度样本,会带来很大的噪声。

2023-01-11 10:00:00 664

原创 【一文讲通】样本不均衡问题解决--下

1欠采样、过采样欠采样:减少多数类的数量(如随机欠采样、NearMiss、ENN)。过采样:尽量多地增加少数类的的样本数量(如随机过采样、以及2.1.2数据增强方法),以达到类别间数目均衡。还可结合两者做混合采样(如Smote+ENN)。具体还可以参见【scikit-learn的以及github的awesome-imbalanced-learning】2数据增强。

2023-01-09 10:00:00 645

原创 【一文讲通】如何检测数据满足同分布

1 统计指标的方法1.1群体稳定性指标(Population Stability Index,PSI)群体稳定性指标(Population Stability Index,PSI), 衡量未来的样本(如测试集)及训练样本评分的分布比例是否保持一致,以评估数据/模型的稳定性(按照经验值,PSI

2023-01-07 16:57:45 818

sobol敏感性分析 python实现

1. sobol敏感性分析 python实现方法。 代码目的是通过sobol敏感性分析方法评估机器学习模型中不同因素的影响大小。 结果分为一阶敏感性,二阶敏感性和总阶敏感性三种。 2. 实例详细讲解,包括(数据+代码+注释) 3. 可自定义图的标签、字体大小等设置 4. python代码,可直接运行。环境:python==3.6.5,tensorflow==1.9.0 5. RF.model为训练结束后保存的RF模型。用户可自定义替换 6. 结果图中为样本数是128,256,512,1024和2048五种情况下的结果。一般而言,样本数越多,结果越准确。 7. 若有疑问,可通过2900045856@qq.com或关注CSDN博主allein_STR后咨询或购买(备注“CSDN资源”)。

2022-08-17

手把手教你使用SHAP(数据+代码+注释)

1. 同名博客:手把手教你使用SHAP 2. 实例讲解,包括(数据+代码+注释) 3. 可自定义图的标签、字体大小等设置 4. 基于jupyter,python代码,可直接运行 5. 若有疑问,可在同名博客https://blog.csdn.net/allein_STR/article/details/121459159?spm=1001.2014.3001.5502评论区说明。

2022-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除