自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 吃瓜之西瓜书、南瓜书阅读《机器学习》周志华——第1章、第2章

绪论基本术语数据集 dataset示例 instance样本 sample属性 attribute特征 feature属性值 attribute value属性空间 attribute space样本空间 sample space训练数据 training data训练样本 training sample训练集 training set标记 label样例 example (有了标记信息的示例)泛化 generalization (学的模型适用于新样本的能力)模型评估与选

2021-07-14 02:31:40 127

原创 sklearn多分类任务自定义cv交叉验证scoring

最近做了一个随机森林的多分类multiclass任务,要在sklearn中使用make_scorer自定义一个评价指标scoring,发现网上没有太多相关经验贴,走了很多弯路,最终还是在官方文档中找到了答案,在此记录一下。这是sklearn.metrics.make_scorer的官方文档https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html首先介绍一下我的数据集,这是一个4分类的任务。特

2021-05-26 23:30:18 2491 1

转载 异常检测Anomaly Detection(五)集成方法

文章目录1、引言2、Feature Bagging1.选择基检测器2.分数标准化和组合方法3、Isolation Forests4、总结5、feature bagging为什么可以降低方差?feature bagging存在哪些缺陷,有什么可以优化的idea?1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函

2021-05-24 01:25:55 389

转载 异常检测Anomaly Detection(四)基于相似度的方法

基于距离的度量2.1 基于单元的方法2.2 基于索引的方法基于密度的度量3.1 k-距离(k-distance(p)):3.2 k-邻域(k-distance neighborhood):3.3 可达距离(reachability distance):3.4 局部可达密度(local reachability density):3.5 局部异常因子:“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异.

2021-05-20 10:57:19 222

原创 异常检测Anomaly Detection(三)基于PCA相关方法

1. 线性回归2. 主成分分析归一化问题回归分析的局限性总结本文将会阐述如何用线性方法进行异常检测。使用线性方法的重要假设为:假设一:近似线性相关假设。假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。基于此两点假设,在异常检测第一阶段,为了确定特定模型是否适合特定的数据集,对数据进行探索性和可视化分析是非常关键的。1. 线性回归关于线性回归的基本概念和方法不再赘述,只列基本点:模型形式Y=aX.

2021-05-18 22:51:33 840

原创 异常检测Anomaly Detection(二)基于统计的方法

1. 统计方法1. 统计方法

2021-05-15 01:03:57 1503

原创 异常检测Anomaly Detection(一)定义、分类及方法

异常检测1. 什么是异常检测?1.1 定义1.2 应用场景1.3 异常检测为什么难做2. 异常检测的分类2.1 根据数据集性质分类2.2 根据异常的类别分类2.3 根据标签的可获得性分类3. 异常检测方法综述2.1 基础方法2.1.1 基于统计学的方法2.1.2 谱方法2.1.3 基于距离的方法2.2 集成方法2.2.1 feature bagging :2.2.2 孤立森林:2.3 基于分类的机器学习方法2.3.1 神经网络方法2.3.2 贝叶斯网络2.3.3 SVM方法1. 什么是异常检测?1.1

2021-05-11 01:22:05 6396

原创 Apache spark 2.4.3官方文档翻译之 spark overview

spark官方文档spark overview中文安全性下载示例Apache spark是一个快速通用的集群计算系统。它为多种语言提供API,包括Java, Scala, Python和R,及优化了的图像处理引擎。它拥有一系列高级工具,如针对SQL语言和结构化数据处理的spark SQL,针对机器学习的MLib,针对图像处理的GraphX,以及处理流计算的Spark Streaming安全性...

2019-06-20 17:28:17 582

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除