- 博客(2)
- 收藏
- 关注
原创 机器学习中的异常值检测
异常值检测是机器学习中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分机器学习过程都将这种差异信息视为噪声而丢弃。 异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析。在进行机器学习过程中,需要对数据集进行异常值剔除或者修正,以便后续更好地进行信息挖掘。对于异常值的处理,3σ原则是最常使用的一种处理数据异常值的方法。那么,什么叫3σ原则呢?3σ原则,又叫拉依达原则,它是指假设一组检测数据中只含有随机误差,需要对其进行计算得到标准偏差,按一
2021-06-10 18:21:00
1577
原创 Kmeans算法
Kmeans算法基本思想 这种聚类方法的思想是把每个样品聚集到其最近均值的类中,在它的最简单说明中,这个过程由下列三步所组成: (1)把样品粗略分成K个初始类。 (2)进行修改,逐个分派样品到其最近均值的类中(通常用标准化数据或非标准化数据计算欧式距离)。重新计算接受新样品的类和失去样品的类的形心(均值)。 (3)重复第二步,直到各类无元素进出。 KMeans算法流程 KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近
2021-06-09 21:43:51
523
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人