机器学习
文章平均质量分 82
傅华涛Fu
热爱代码,热爱技术。
展开
-
转载:Snorkel - 可编程的数据标注神器
我知道你已经用上了最先进的深度学习模型,不过,还在人工标注数据吗? 这有点过时了!快来了解下Snorkel —— 最新的基于弱监督学习的大规模训练数据标注神器!现在的机器学习尤其是深度学习模型很强大,但是训练这些模型需要大量的 标注数据集!传统的人工标注方式成本非常高,而且很耗时间,在有些情况下 根本就是不现实的,例如可能涉及到隐私的问题。当需要领域专家才能够 进行数据的标注时,这一问题变得更加糟糕 。而且,随着时间的推移,标注 任务有可能也会变化,而这些手工标注的训练数据都是静态的,可能无法转载 2021-04-11 16:19:42 · 394 阅读 · 0 评论 -
转载:本体建模和知识建模
本体是一种知识表示方法,也是概念化的形式化。概念化指的是通过世界中的相关概念而建立的关于现象的抽象模型;而形式化指的是机器可以理解,可以进行处理。本体建模:核心是明确领域中的概念,概念的属性和约束条件和概念之间的层次关系等。传统的本体建模语言有Ontolingua、OKBC、OCML、FLogic和LOOM等,面向Web的建模语言有XQL、SHOE和OIL等。知识建模:知识的逻辑体系化过程,主要指应用知识来解决各种工程问题,自动完成工程中各种繁琐和重要的工作。通过基于本体的知识表示方法获取知识语..转载 2021-01-26 20:21:56 · 1571 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第十二章 图形和网络中的异常检测
1.引言图形的表示是最强大和最通用的数据表示形式之一。这些结构被用来表示不同的数据,从多维实体关系图、web、社交网络、通信网络以及生物和化学化合物。从广义讲,在现实的领域中,出现了两种类型的图:数据可能包含许多小图,绘制在标记节点的一个小的基本域上。这种情况的一些例子包括化学和生物化合物。标签对应于化学元素,可以在同一物体或不同物体内重复。节点标签的重复在这种应用中引起了严重的计算挑战,这被称为图同构。根据数据库中正常图形对象的模型,将单个图形对象定义为异常值。因此,异常分数也与整个图形相关联原创 2021-01-21 23:16:38 · 230 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第十一章 空间数据的异常检测
1.引言空间数据是一种上下文数据类型。空间数据有两种类型的属性:行为属性:这是为每个对象测量的感兴趣属性。例如,这个属性可以对应于海面温度、风速、车速、疾病爆发次数、图像像素的颜色等等。在给定的应用程序中可能有多个行为属性。因此,在许多应用程序中,这个属性是非空间的,因为它测量给定位置的一些感兴趣的数量。然而,在一些数据类型,如轨迹,行为属性是空间的。上下文属性:在许多空间数据类型中,上下文属性是空间的,尽管在某些偶然情况下(例如上下文是时间的轨迹)它可能不是空间的。海面温度、原创 2021-01-19 23:25:21 · 828 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第一章(部分) 异常值的评估技术
注:异常值、孤立点、离群点三个术语是同一个意思。1.外部评估技术异常值一般是使用外部评估技术标准,因为大多数异常值的检测都是无监督问题。如果某个应用的异常检测是有监督的话,则其可以使用内部评估技术,所谓的内部评估技术,即可以使用标签ground-truth(或者叫做真实值)去验证预测值是否准确。由于使用外部评估技术,所以各种模型对应的评估机制是不一样的,即线性模型使用线性模型的评估技术,邻近模型使用邻近模型的评估技术。2.精确率Precision和召回率Recall(具体概念可参考简单理解原创 2021-01-19 12:37:42 · 552 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第十章 离散序列中的异常检测
1.引言第十章讨论的是连续时间序列中的异常检测。其中每个时间戳中的单个元素是离散值(即分类)。这种离散的时间序列也被称为序列。离散值时间场景出现在许多应用中,如系统诊断、入侵检测和生物应用中。在入侵检测和系统诊断等领域中,离散序列是由时间排序引起的,而在生物数据等领域,离散序列是由物理排序引起的。时间数据通常对实际场景中的分析有一个特定的方向(即时间上向前),而基于位置关系的数据可能不是这样。以下是产生离散数据序列的一些应用实例:1、系统诊断:许多自动化系统不断生成有关系统状态的数据。如原创 2021-01-19 09:17:51 · 963 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第九章 时间序列和多维流的异常检测
1、引言2、流时间序列中基于预测的异常检测3、异常形状的时间序列4、多维流的异常检测原创 2021-01-18 16:22:23 · 2402 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第八章 分类、文本和混合属性中的异常检测
1、引言2、将概率模型推广到分类数据3、将线性模型推广到分类和混合数据4、将邻近模型推广到分类数据5、二进制和事务数据中的异常检测6、文本数据中的异常检测7、总结...原创 2021-01-18 09:19:34 · 431 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第七章 有监督的异常检测
1. 引言监督异常检测的目标是赋予学习方法特定于应用程序的知识,以获得与应用程序相关的异常。这一知识往往包括此类相关异常的例子,尽管其他类型的监督也是可能的。由于异常的罕见性质,这种例子往往是有限的。这给创建健壮模型带来了挑战。然而,即使有少量的数据可供监督,它的纳入通常会显著提高异常检测的准确性。关于异常分析的一般建议是在可能的情况下始终使用监督。异常检测与分类问题的区别,主要是有以下几个具有挑战性的特征,这些特征有可能是孤立的,也有可能是组合的:1、类不平衡:由于异常值被定义为数据中的罕原创 2021-01-16 23:40:54 · 3802 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第六章 异常值的集成
其实这一章介绍的异常值的集成,是和机器学习中的集成学习是一个意思。1. 基本介绍1.1 集成方法基本介绍集成分析是提高各种数据挖掘算法精度的常用方法。集成方法将多个算法或基检测器(或称为组件检测器)的输出结果组合起来,创建一个统一的输出。该方法的思想是,一些算法在特定的点子集上会做的和那后,而其他算法在其他点子集上会做的更好。然而,集成组合通常能够更健壮地全面执行,因为它能够组合多个算法的输出。集成分析经常用于各种数据挖掘和机器学习应用,如聚类、分类、异常分析和推荐系统。 此外,它还应用原创 2021-01-15 23:33:24 · 452 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第五章 高维数据中的异常检测:子空间方法
1.基本介绍现实世界中,很多数据的维度非常高,许多传统的异常检测方法在高维数据中无法有效工作。这也叫维度灾难/维度诅咒/维度惩罚。在高维空间中,当进行全维分析时,数据变得稀疏,真正的异常值被多个不相关维数的噪声效应所掩盖。维度灾难的一个主要原因是在高维情况下,难以定义一个点的相关局部性。例如,在高维空间中,所有点对几乎是等距的。这种现象被称为数据稀疏或距离集中。而异常值是定义为稀疏区域中的数据点,这导致了一种鉴别性差的情况,即所有数据点都位于几乎相同的稀疏区域中,具有全维度。2.轴-并行子空原创 2021-01-14 23:31:36 · 2756 阅读 · 1 评论 -
基于距离的方法的二进制输出
尽管基于分数的输出比二进制输出更通用,但是它们在实际应用中的局限性超出了发现哪些点是离群值的二进制问题。 使用二进制输出的优点是可以修剪许多O(N^2)计算。 因此,仅将得分最高的点报告为离群值,我们不在乎非离群点的分数。 这可以通过指定最近邻居距离的最小阈值(分数),也可以通过在k最近邻距离的rank上使用一个最大阈值来实现。前者的参数化给分析人员带来了挑战,就是选择预先确定的绝对距离阈值的(可能是非直观的)值(这个值可以通过计算数据点样本的离群点分数,并根据这些分数的均值和标准差设置估计值)。基于.原创 2021-01-13 12:00:36 · 164 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第四章 基于邻近的异常检测
1.基本介绍基于邻近的技术是指,当一个数据点的位置或邻近是稀疏时,则将其定义为一个离群点。基于邻近的技术最常见的离群点分析的定义:基于聚类:使用非任何聚类中数据点的成员、其与其他聚类质心的距离、最近的聚类的大小或这些因素的组合来量化异常值评分。聚类问题和异常检测问题有互补关系,其中要么属于聚类,要么属于异常值。基于距离:使用数据点到其k近邻的距离来定义邻近。具有较大k近邻距离的数据点被定义为离群点。基于距离的算法通常比其他两种方法需要执行更详细的粒度。另一方面,这种更大的粒度往往需要原创 2021-01-11 23:55:25 · 3443 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第三章 异常检测的线性模型
1.线性模型的基本介绍1.1 回归模型真实数据中的属性通常是相关的。这种依赖关系提供了相互预测属性的能力。如在正常情况下,一个人的身高和体重之间具有一定的相关性;房价和房屋面积的相关性;薪资和工龄之间的相关性等。预测和异常检测的概念是密切相关的。异常值通常是在特定模型的基础上偏离预期值(预测值)的值。线性模型侧重于使用属性间依赖关系来实现这一目标,这也叫回归模型。1.2 回归建模的两种形式回归建模是相关分析的一种参数化形式。 一些形式的相关分析试图从其他自变量预测因变...原创 2021-01-11 23:01:06 · 1227 阅读 · 0 评论 -
转载:7个常用的回归分析法!
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。现在,你有公司最新的数据,这些数据显示出销售额增长大转载 2021-01-11 15:11:52 · 673 阅读 · 0 评论 -
【文章收藏】如何理解Z检验和T检验?
如何理解Z检验和T检验?原创 2020-12-29 10:44:02 · 719 阅读 · 0 评论 -
Mahalanobis(马哈拉诺比斯)距离
马氏距离(Mahalanobis Distance)是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。马氏距离(Mahalanobis Distance)是由马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即.原创 2020-12-28 23:31:40 · 6701 阅读 · 1 评论 -
LOF(Local Outlier Factor):局部异常因子
局部异常因子算法(Local Outlier Factor)通过计算“局部可达密度”来反映一个样本的异常程度,一个样本点的局部可达密度越大,这个点就越有可能是异常点。用通俗的话来讲就是:若点P的局部范围内,数据点的密度越小,则点P越有可能是异常点。一、k距离邻域:表示K个数据点组成的一个邻域范围 某一点P的k距离(k-distance)很容易解释,就是点P和距离点P第k近的点之间距离,但不包括P。假设P是学校,葛小伦、刘闯、赵信、蔷薇、琪琳、炙心6个同学都住在学校附近: 图1原创 2020-12-27 22:59:10 · 4032 阅读 · 7 评论 -
基于实例的学习方法
监督学习四 基于实例的学习基于实例的学习基于实例的学习原创 2020-12-23 16:25:49 · 2042 阅读 · 0 评论 -
简单理解 TP、FN、FT 及 TN和准确率、精确率、召回率 的含义
在机器学习或是其他地方,经常会看到TP、FN、FT 和 TN这几个字符,那到底是什么意思呢?简单来讲其实就是预测结果的两种情况(正确和错误)和真实结果的两种情况(正的和负的)的两两组合,2*2=4,总共有四种情况。P:positive 正的,即真实值是正的;N:negative 负的,即真实值是负的;T:true 正确的,即预测是正确的;F:false 错误的,即预测是错误的。下面通过一个例子来看看。预测某班级学生是否去上课了:假设某大学某班级总共100个人,该班级学..原创 2020-12-22 21:19:25 · 9189 阅读 · 2 评论 -
ROC/AUC
【机器学习笔记】:一文让你彻底记住什么是ROC/AUC(看不懂你来找我)原创 2020-12-21 23:01:59 · 78 阅读 · 0 评论 -
归一化、标准化、批标准化
神经网络比较喜欢处理小数据。归一化和标准化都是将数据做线性变化,线性变化不会改变原始数据的顺序排列。归一化:将数据转换得到比较小的一个范围内,通常是[0, 1]之间。标准化:将数据转换为正态分布的标准,使得平均值为0,通常操作是将数据减去平均值再除以方差。批标准化(Batch Normalization):批标准化指的是批数据,把数据分成小批量进行随机梯度下降,而且在对每批数据进行前向传播的时候,对每一层都进行批标准化的处理。批标准化通常就是将分散的数据进行统一...原创 2020-09-08 08:49:40 · 743 阅读 · 0 评论 -
线性回归与逻辑回归
续。。。原创 2020-09-05 10:08:59 · 111 阅读 · 0 评论 -
有关卷积神经网络的文章
直白介绍卷积神经网络(CNN)原创 2020-08-18 09:59:15 · 77 阅读 · 0 评论 -
sklearn 简介
sklearn 简介scikit-learn 是基于 Python 语言的机器学习工具简单高效的数据挖掘和数据分析工具 可供大家在各种环境中重复使用 建立在 NumPy ,SciPy 和 matplotlib 上 开源,可商业使用 - BSD许可证sklearn 中文文档...原创 2020-08-17 21:59:07 · 157 阅读 · 0 评论 -
两大免费云端 GPU:Colab 和 Kaggle
两大免费云端 GPU:Colab 和 Kaggle,爱学习的你究竟该如何选择?原创 2020-08-17 21:55:41 · 954 阅读 · 0 评论 -
分类与回归问题
机器学习一般可以分为分类和回归两类问题。分类问题:一般是定性分析,其数据是离散的。即一般是归类到某个数据段中。回归问题:一般是定量问题,其数据是连续的。即一般是取某个具体的数值。...原创 2020-07-21 09:47:08 · 350 阅读 · 0 评论 -
梯度下降算法
1. 概述梯度下降(gradient descent)在机器学习中应用十分的广泛,不论是在线性回归还是Logistic回归中,它的主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值。本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,解释为什么要用梯度,最后实现一个简单的梯度下降算法的实例!2. 梯度下降算法2.1 场景假设梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来(找到山的最低点,也就是山谷转载 2020-07-21 09:42:28 · 153 阅读 · 0 评论 -
遗传算法解决函数极值问题
首先遗传算法是一种优化算法,通过模拟基因的优胜劣汰,进行计算(具体的算法思路什么的就不赘述了)。大致过程分为初始化编码、个体评价、选择,交叉,变异。以目标式子 y = 10 * sin(5x) + 7 * cos(4x)为例,计算其最大值首先是初始化,包括具体要计算的式子、种群数量、染色体长度、交配概率、变异概率等。并且要对基因序列进行初始化pop_size = 500 ...转载 2019-04-27 14:20:00 · 3559 阅读 · 1 评论 -
K-均值聚类算法
原始数据:testSet.txt1.658985 4.285136-3.453687 3.4243214.838138 -1.151539-5.379713 -3.3621040.972564 2.924086-3.567919 1.5316110.450614 -3.302219-3.487105 -1.7244322.6687...原创 2019-04-07 22:16:15 · 414 阅读 · 0 评论 -
二分K-Means算法
二分K-Means算法是对K-Means算法的优化,主要优化的地方是在选取质心的时候,二分K-Means算法有效地避免了在初始选取质心时的误差,可以有效地提高算法效率。测试数据:testSet2.txt 中间用tab分隔3.275154 2.957587-3.344465 2.6035130.355083 -3.3765851.852435 3...原创 2019-03-30 10:19:16 · 6780 阅读 · 0 评论 -
K-Means:K均值聚类算法
下面通过一个案例简单介绍K-Means算法的简单流程:>>点击下面的这张图片可以看得很清楚>>通过上述案例可以比较清晰地理解K-Means算法,下面上代码:测试数据:testSet.txt, 同一行的两个数据之间用tab分隔1.658985 4.285136-3.453687 3.4243214.838138 -1.15153...原创 2019-03-30 10:08:26 · 865 阅读 · 0 评论