- 博客(4)
- 收藏
- 关注
翻译 解决样本类别分布不均衡的问题
不均衡指的是不同类别的样本量差异非常大,样本类别分布不均衡从数据规模上课=可分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便属于这种情况 小数据分布不均衡:例如拥有1000条记录的数据集中,其中占有10条样本的分类,其特征无论如何拟合也无法实现完整特征值的覆盖,属于严重的数...
2018-08-18 18:31:11
4597
翻译 主成分分析(PCA)的主要使用场景
PCA的主要适用场景:(1)非监督式的数据集它是一种非监督式的降维方法,因此适用于不带有标签的数据集,对于带有标签的可以采用LDA(2)根据方差自主控制特征数量最大的主成分的数量会小于或等于特征的数量,即,PCA可以输出全部的特征,具体取决于选择特征中解释的方差比例(3)更少的正则化处理选择较多的主成分将导致更少的平滑,因为能保留很多特征,减少正则化(4)数据量较大的数...
2018-08-18 16:58:16
15689
翻译 数据预处理经验
数据清洗:缺失值,异常值,重复值的处理一、数据列缺失的4种处理办法1.丢弃 直接删除带有缺失值的行记录或列记录,减少缺失数据记录对总体数据的影响。以下场景不宜采用此办法: (1)数据集总体中存在大量的数据记录不完整情况且比例较大(超过10%),删除会损失许多有用信息 (2)带缺失值的数据记录大量存在着明显的数据分布规律和特征,例如:带缺失值的数...
2018-08-18 09:55:03
361
转载 分治算法之最大子段和
最大子段和: 对于n个整数(可能为负数)组成的序列a[1],a[2],a[3],…,a[n],求该序列如a[i]+a[i+1]+…+a[j]的子段和的最大值。当所给的整数均为负数时定义子段和为0,依此定义,所求的最优值为: Max{0,a[i]+a[i+1]+…+a[j]},1<=i<=j<=n 。本文中取n=20,a[i]属于[-20,20].#include<iostr...
2018-04-19 20:01:29
3645
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人