datafamily-CSDN博客

原创机器学习中的异常值检测

异常值检测是机器学习中重要的一部分，它的任务是发现与大部分其他对象显著不同的对象。大部分机器学习过程都将这种差异信息视为噪声而丢弃。异常值是指样本中的个别值，其数值明显偏离其余的观测值。异常值也称离群点，异常值的分析也称为离群点的分析。在进行机器学习过程中，需要对数据集进行异常值剔除或者修正，以便后续更好地进行信息挖掘。对于异常值的处理，3σ原则是最常使用的一种处理数据异常值的方法。那么，什么叫3σ原则呢？3σ原则，又叫拉依达原则，它是指假设一组检测数据中只含有随机误差，需要对其进行计算得到标准偏差，按一

2021-06-10 18:21:00 1577

原创 Kmeans算法

Kmeans算法基本思想这种聚类方法的思想是把每个样品聚集到其最近均值的类中，在它的最简单说明中，这个过程由下列三步所组成：（1）把样品粗略分成K个初始类。（2）进行修改，逐个分派样品到其最近均值的类中（通常用标准化数据或非标准化数据计算欧式距离）。重新计算接受新样品的类和失去样品的类的形心（均值）。（3）重复第二步，直到各类无元素进出。 KMeans算法流程 KMeans算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近

2021-06-09 21:43:51 523

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 机器学习中的异常值检测

原创 Kmeans算法

空空如也

空空如也

原创机器学习中的异常值检测