William_ywh-CSDN博客

原创 2021-05 数据异常检测 task 5

今天看了高维数据下的异常检测：在实际场景中，很多数据集都是多维度的。随着维度的增加，数据空间的大小(体积)会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性，但是，在高维空间中，所有点对的距离几乎都是相等的(距离集中)，这使得一些基于距离的方法失效。在高维场景下，一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一，可以有效提高数据挖掘算法精度。集成方法将多个算

2021-05-24 00:48:49 105

原创 2021-05-task4 异常检测-基于相似度的方法

今天看两个异常检测：基于距离的度量基于密度的度量基于距离：基于距离的方法是一种常见的适用于各种数据域的异常检测算法，它基于最近邻距离来定义异常值。此类方法不仅适用于多维数值数据，在其他许多领域，例如分类数据，文本数据，时间序列数据和序列数据等方面也有广泛的应用。基于距离的异常检测有这样一个前提假设，即异常点的近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于个数据点与当前点的

2021-05-21 01:12:06 93

原创 2021-05-数据异常检测-task3

今天了解一下使用线性相关方法进行异常检测：我最近了解到两个线性相关方法可以进行一个样本中的异常检测：线性回归主成分分析在进入这两个方法的介绍之前，先了解一下一个概念：回归建模：通过参数化的表达式来digitalize 因变量和自变量之间的相关性。直白的说，就是用数学表达式来刻画“相关性”这三个字。搞清楚回归是做什么用的之后，就可以开始了解最初上述两个方法的作用是什么了：线性回归：在一个样本中，通过其他变量预测单独的属性值。（这样做其实心里已经在默认其他变量和单独的属性值是具有相关性的

2021-05-18 00:23:09 166

原创 2021-05-数据异常检测-task2

今天了基于统计学方法的异常检测： 1.高斯分布 2.箱线图 3.HBOS 目前我只看到了这三个，hbos我看不太懂。先暂时放一放 1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。即利用统计学方法建立一个模型，然后考虑对象有多大可能符合该模型。根

2021-05-15 09:07:17 104

原创 2021.05_异常检测学习_Task 1

2021年5月，计划学习数据的异常检测，今天首先了解一下数据异常检测的基本概念。 1 异常检测基本概念异常检测，其实就是在检测一些偏离于正常数据区间的数据，这些数据往往和预期相差较大。 1.1 数据异常的类别 **点异常（point anomalies）**指的是少数个体实例是异常的，大多数个体实例是正常的，例如正常人与病人的健康指标；条件异常（conditional anomalies），又称上下文异常，指的是在特定情境下个体实例是异常的，在其他情境下都是正常的，例如在特定时间下的温度突然上升或下降，

2021-05-11 22:01:55 179

原创 2020.08.28_Task3_基于支持向量机模型，实现分类预测

支持向量机（Support Vector Machine，SVM）是一个非常优雅的算法，具有非常完善的数学理论，常用于数据分类，也可以用于数据的回归预测中，由于其优美的理论保证和利用核函数对于线性决策边界不可分的问题的处理技巧，在上世纪90年代左右，SVM曾红极一时。这里呢，我先暂时不介绍太多历史，我后面会补上，连同之前没有补上的部分一起补上。最近实在是有丢丢忙，连着几天开会，我人都懵了。还是建议一下，新手学机器学习，时间充裕的情况下千万不要想着急功近利学会调参，还是应当好好了解这个学科的发展历程，了

2020-08-28 20:27:23 282

原创 2020.08.22_Task2_基于决策树模型，实现分类预测

今天来了解和学习第二个机器学习模型：决策树决策树和很多其他的机器学习算法不同，其他的机器学习算法，有的一般只用于分类（Classification）预测，有的一般只用于回归(Regression)分析。而决策树，是既可以做分类预测，也可以做回归分析。关于回归和分类的区别，链接传送门：https://www.zhihu.com/question/21329754 关于决策树的发展历史，链接传送门：https://www.jiqizhixin.com/graph/technologies/80fbc146-

2020-08-22 21:34:37 631

原创 2020.08.22_Task1.2_基于逻辑斯特模型，实现分类预测(2)

上一次，采用了一个自己创造的数据作为数据集，展示了一个Python3.0版本的基于逻辑回归模型实现分类预测功能的代码块。这回就实战看一下，应用非常著名的莺尾花数据集，通过逻辑回归实现分类预测功能。流程还是一样了： 1.1 导入基本函数库+绘图指令库 import numpy as py; import pandas as pd; 1.2 从库中导入鸢尾花数据集 from sklearn.datasets import load_iris; 2 将鸢尾花数据做处理，变成Python中的sklearn

2020-08-22 20:04:43 422

原创 2020.08.20_Task1_基于逻辑斯特模型，实现分类预测

Hello大家好，今天就来学习和了解一下逻辑斯特模型，以及它在机器学习领域中的一个重要用途：实现分类预测。其实一开始看到标题是：”基于逻辑回归的分类预测“，我挺疑惑的。一是完全不懂逻辑回归是什么，二是完全不懂为什么要说是回归，三是完全不懂怎么实现分类以及预测。直到去学了之后，看了些文章，再总结之前自己学过的高数课，才明白原来这个东西我学过。以及在慢慢开始要去学习机器学习这个新兴学科后，我发现了解它的科学发展史很有必要，只有认识它的发展轨迹，才会明白为什么会涌现出这么多我们耳熟能详的模型，以及为什么会有这

2020-08-20 22:28:04 878

William_ywh的博客