- 博客(7)
- 收藏
- 关注
原创 实验数据合并
数据合并是数据分析中的一项核心技能,它可以帮助我们整合来自不同来源的数据,提高数据的完整性和分析的深度。无论是使用数据库查询、编程语言还是ETL工具,选择合适的方法对于实现有效的数据合并至关重要。掌握数据合并技术,可以大大提升数据处理的效率和质量,为决策提供更有力的支持。
2024-11-03 23:03:37 741
原创 上采样和下采样(下)
Nearest (最近邻)采样原理:在需要插值的点上,选择最近的样本点的值作为该点的值。优点:计算简单,速度快,没有插值误差。缺点:可能会产生明显的锯齿状效果,特别是在图像放大时,因为每个插值点都直接取最近的像素值,没有平滑处理。适用场景:适用于对速度要求高,对图像质量要求不高的场景。Linear(线性)采样原理:在需要插值的点上,根据周围两个样本点的值进行线性插值。优点:相比最近邻采样,线性采样可以减少锯齿效应,使图像看起来更平滑。缺点:仍然可能存在一些模糊和失真,特别是在图像的边缘。
2024-11-01 13:15:47 432
原创 数据上采样和下采样(上)
通过mse的评价指标,我们可以看出来这两种方法进行下采样的误差基本上一致,但是从一个图形中的对比,他们的差异明显挺大,那是为什么呢,这就的考虑到时间对齐问题了,由于我们的采样对应着时间点,如果不对齐那就会产生不好的效果,只对比了前面五十万的数据,与我们的本意就相差甚远,所以这里我们还要考虑到时间对齐的问题,接下来对代码进行改编。下采样是指减少数据点的数量。插值下采样和低通滤波看上去效果似乎差不多,但是在结束位置,貌似使用插值下采样的效果更好,但是这还不够明显,接下来将他们画到一张图形中进行对比。
2024-10-31 15:34:48 1580
原创 不同尺寸数据的合并——插值方法(含代码,对比实验)
这里是我目前研究核聚变可控化使用的一些特征数据,其中大的数据达到千万级别,小的才几百到几万,采样的分辨率差异甚大,如果需要合并,对应时间点对齐,处理起来比较麻烦,因此需要一个较好的方法进行处理最终合并,该文采用sxr25d数据进行实验。该节展示了不同数据的插值法,改变数据的数量,用于后面多数据的合并,实验效果非常的不错,这只是一种方法,当然还有其他的方法可以多多探索。蓝色线条表示原始数据,红色表示变化分辨率之后的数据,拟合程度非常高,插值效果也特别好,可以用于实验数据。
2024-10-29 18:25:58 700
原创 数据处理——归一化、标准化
数据归一化(Normalization)和标准化(Standardization)是数据预处理中非常重要的步骤,它们对于许多机器学习算法的性能有着直接的影响。库中的数据预处理工具,可以非常方便地对数据进行归一化和标准化处理,以提高机器学习模型的性能和准确性。在使用这些函数时,通常需要先对数据集进行。操作以计算所需的统计参数(如最小值、最大值、均值、标准差等),然后使用。本节主要分享了数据处理的归一化、标准化的原因、好处已经代码实现。对于新数据,可以使用相同的。对象进行转换,以确保新旧数据的一致性。
2024-10-29 10:02:58 1038
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人