机器学习
liuyinglxl
Afterlife
展开
-
常用距离/相似度度量
给定样本集合 XXX,X=[xij]m×nX = [x_{ij}]_{m\times n}X=[xij]m×n,由 nnn 个 mmm 维特征组成的样本集合。其中 xi,xj∈X,xi=(xi1,xi2,...,xim),xj=(xj1,xj2,...,xjm)x_i, x_j \in {X}, x_i = (x_{i1}, x_{i2}, ..., x_{im}), x_j = (x_{j1...原创 2020-03-28 18:37:50 · 454 阅读 · 0 评论 -
局部异常因子算法 Local Outlier Factor(LOF)
每个样本的异常分数称为局部异常因子。异常分数是局部的,取决于相对于周围邻域的隔离程度。局部性由 k 近邻给出,并使用距离估计局部密度,通过将样本的局部密度与其邻居的局部密度进行比较,可以是被密度明显低于其邻居的样本,这些样本就被当作是异常样本点。算法原理 & LOF 算法相关定义:d(p,o)d(p, o)d(p,o):点 p 和点 o 之间的距离k-distance: 第 ...原创 2020-03-09 11:41:44 · 2950 阅读 · 2 评论 -
数据类别不平衡的有监督机器学习
1. 数据类别不平衡数据不平衡问题,是指在数据中,各个类别的数量不平衡的情况,简单的就而分类问题来讲,可能正类只有 10%,负类 90%,这种情况在很多场景下都存在,比如异常检测、反作弊等等。在这种数据分布下,如果直接进行有监督学习,那么即使是一个永远只预测为负类的学习器,它的准确率也有90%,但是这样的分类器在实际应用中毫无意义,所以针对类别不平衡的问题,需要进行特殊的处理。2. 类别不平衡...原创 2020-03-01 22:29:56 · 1016 阅读 · 0 评论