自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 基于决策的黑箱攻击——Boundary Attack

一、引言基于决策的黑箱攻击是对抗攻击的一大类,优点是不需要目标模型的任何信息,只需要知道目标模型对于给定输入样本的决策结果。本文主要介绍基于决策的黑箱攻击的开山之作——Boundary Attack,论文为:Brendel W A R J. Decision-based adversarial attacks: reliable attacks against black-box machine learning models. arXiv preprint arXiv:1712.04248, 201

2021-05-20 12:03:32 3278 1

原创 Intriguing properties of neural networks——L-BFGS attack

2014的文章Intriguing properties of neural networks引发了关于对抗样本研究的热潮。其实对抗样本的研究很早就有了,只是当时没有得到足够的重视,最早的文章应该是下面这篇,研究的是垃圾邮件过滤问题:N. Dalvi, P. Domingos, Mausam, S. Sanghai, D. Verma, Adversarial classification, in: Int’l Conf. Knowl. Disc. and Data Mining, 2004, pp.

2021-05-19 18:29:44 564

原创 对抗攻击的类型介绍

对抗攻击的类型介绍根据攻击者对目标模型(被攻击的模型)的了解程度不同,已有的对抗攻击大致可以分为两类:白箱攻击和黑箱攻击。1 白箱攻击在白箱攻击算法中攻击者知道目标模型的所有信息,包括模型的训练集、类型、结构以及参数。白箱攻击考虑的是在一种对攻击者而言极度理想的情况,虽然高估了攻击者的能力,但是可以用来评估机器学习模型的安全性的下限。此外,白箱攻击能够和后面将会提到的“基于迁移的攻击”相结合,因此研究白箱攻击意义还是很大的。2 黑箱攻击在黑箱攻击中,攻击者不知道目标模型的内部细节,只能够观察目标模

2021-05-19 16:09:32 2065

原创 通用对抗样本 Universal Adversarial Example

Universal Aversarial Example介绍对抗样本(Adversarial Example)是近年来机器学习领域比较火的研究话题,这类样本可以说是机器学习模型的死敌,可以让目前性能最好的机器学习模型都丧失其分类能力本文旨在介绍更为特殊的一类对抗样本——通用对抗样本Universal Adversarial Example。定义欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这

2021-05-12 21:35:19 2703 7

原创 一个例子搞懂softmax regression

#1

2019-04-23 17:34:12 1533

原创 利用python清理CSV和txt格式数据(附代码)

下面代码主要包括CSV以及txt文件的读写和清理(将离散变量用数字代替)# -*- coding: utf-8 -*-import numpy as npimport pandas as pddef loadData(filename):'''用于读取CSV或txt文件''' dataMat = [] fr = open(filename) for li...

2018-06-20 13:31:34 7705

原创 半监督K均值聚类python代码

说明:下面的半监督K-means的初始聚类中心的选择是根据有标签数据而定的,聚类个数=类别个数,初始聚类中心=各个类样本的均值。# -*- coding: utf-8 -*-import numpy as npdef distEclud(vecA, vecB): ''' 输入:向量A和B 输出:A和B间的欧式距离 ''' return np.sqr...

2018-05-28 16:14:14 9192 13

原创 半监督学习之self-training

一,半监督学习  半监督学习是一种介于监督式学习和无监督学习之间的学习范式,我们都知道,在监督式学习中,样本的类别标签都是已知的,学习的目的找到样本的特征与类别标签之间的联系。一般来讲训练样本的数量越多,训练得到的分类器的分类精度也会越高。但是在很多现实问题当中,一方面由于人工标记样本的成本十分高昂,导致了有标签的样本十分稀少。而另一方面,无标签的样本很容易被收集到,其数量往往是有标签样本的上

2018-05-08 20:12:39 26422 2

原创 python 安装科学计算库——新手教学

用python来进行数据分析以及机器学习算法的实现变得越来越流行,而要我们必不可少地需要安装第三方的科学计算库如numpy+mkl(numpy的改进版), scipy, panda, matplotlib, sklearn等。一,安装库之前你必须知道如果你只是想用这些库的话,最简单的方法是下载anaconda,这个软件包已经把你需要用到的科学计算库基本上都给你装好了,而且不会存在版本上的冲突。但是

2018-03-10 12:08:50 3147

原创 一个确定初始聚类中心的更好方法

初始聚类中心的选择对k-means算法的效果有非常显著的影响,不合适的初始聚类中心可能导致: 1,算法收敛速度降低 2,更大的可能使聚类结果收敛到一个较差的局部最小值 3,某些簇最后是个空集(样本量较小时这种情况经常出现)经典的k-means算法的初始聚类中心是随机选取的,这种方式有两种不足: 1,某些初始聚类中心可能离群体太远,如下图 2,有的聚类中心可能相互之间隔得太近为了克服这些

2017-10-08 13:24:52 12350

原创 k-modes聚类算法介绍

为什么要用k-modes算法k-means算法是一种简单且实用的聚类算法,但是传统的k-means算法只适用于连续属性的数据集,而对于离散属性的数据集,计算簇的均值以及点之间的欧式距离就变得不合适了。k-modes作为k-means的一种扩展,适用于离散属性的数据集。k-modes算法介绍假设有N个样本,M个属性且全是离散的,簇的个数为k 步骤一:随机确定k个聚类中心C1,C2...CkC_1,C

2017-10-04 17:05:29 32841 8

原创 集成聚类之EAC方法

刚看完一篇集成聚类的文章: Combining Multiple Clusterings Using Evidence Accumulation(EAC) 做个简单的笔记,方便复习。和一般的集成聚类不同,EAC并不直接组合不同的划分,而是由这些不同的划分得到一个邻近度矩阵(proximity matrix),之后便可在这个邻近度矩阵上运用层次聚类中的单连接(single link)或平均连接(a

2017-08-13 20:04:19 7586 13

原创 利用互信息比较不同的聚类结果

互信息(mutual information)和信息熵(information entropy)一样都是信息论里面的概念。信息熵在决策树里面用的比较多,可以度量样本集合的纯度。而互信息在聚类中有很大的作用,它可以衡量对同一个数据集不同的划分的之间的相似程度。假设Pa,PbP^a,P^b表示数据集XX上的两个不同的划分,XX包括n的样本。PaP^a包含kak_a个簇,PaP^a= {Ca1,Ca2,⋯

2017-08-13 16:18:13 5511

原创 聚类有效性检验(Hubert'Γ )

问题的提出假设现在有N个样本需要聚类,根据某个聚类算法我们把这N个样本聚为K个簇,现在问题是怎么确定现在的聚类结果是有意义的,而不是仅仅通过随机得到的。下面我们将构造Hubert’Γ 统计量,通过假设检验的方法来解决这一问题。以下内容大部分出至Jain和Dubes的聚类教程《Algorithms for Clustering Data》。部分理解可能有误,欢迎指出错误。所需用到的定义在具体论述之前,

2017-08-06 14:09:54 7557 1

原创 单连接算法与全连接算法

这篇文章所提到的图论里面定义,参考我之前的文章http://blog.csdn.net/tyh70537/article/details/75309042定义这篇文章将详细介绍阈值图(threshold graph),单连接算法和全连接算法的一般步骤。 我前面已经提到过,单连接算法和全连接算法都是从一个邻近度矩阵(proximity matrix)开始。一般情况下,给定n个待聚类的对象,X={x1

2017-08-06 14:04:10 17190 3

原创 adaboost.M1与adaboost.M2差别比较

三种算法的差别adaboost是由Yoav Freund和Robert E. Schapire 首先提出来的一种用于二分类问题的集成方法,紧接着出现的adaboost.M1将二分类扩展到多分类问题,而adaboost.M2不仅可以处理多分类问题,还引入了置信度的概念,进一步扩展了adaboost算法。adaboost的简单介绍 由H(x)=sign(∑t=1Tαtht(x))H(x)=sign(\

2017-08-04 12:01:46 9864 7

原创 基于最小生成树的单连接算法

本文介绍基于最小生成树(MST)的单连接聚类算法,分为凝聚和分裂两种,都十分简单。(基于MST的单连接凝聚算法)step 1. 假设有n个待聚类的对象,把每个对象都当做一个独立的簇,画出 这n个点的完全图G(∞)G(\infty),根据G(∞)G(\infty)得到最小生成树,每条边的权重就是对象之间的距离,重复第二步和第三步直到只剩下一个簇。 step 2. 找出MST中权重最小的一条边(如果

2017-07-21 12:46:29 2008

原创 层次聚类

层次聚类的数学结构在给定一个需要聚类的对象的矩阵之后,我们可以计算相应的邻近度矩阵,邻近度矩阵是层次聚类方法的基础,邻近度矩阵中的元素可以是对象之间的相似度(similarity)或不相似度(dissimilarity)。一般我们都是使用的对象之间的距离(一种不相似度)来组成邻近度矩阵。而所有的层次聚类方法都可以看成是把一个邻近度矩阵转化为一系列具有嵌套结构的划分。首先通过定义来解释一下什么是一系列

2017-07-19 21:21:49 1745

原创 层次聚类中用到的图论知识

图是在聚类分析中有多种用途的一种数学结构。 图是由两个集合构成,顶点的集合用VV表示,代表被聚类的对象,V={vi}V=\{v_i\}。边的集合用EE表示,代表点之间的相互关系,E={ei}E=\{e_i\}。这些点和边通过一个函数ff关联起来,ff将边映射到对应的点对上。因此图GG可以表示为一个三元组,G=(V,E,f)G=(V,E,f)。多重边和环若图G中,某个边e的两个端点相同,则称e是环,

2017-07-18 16:26:32 3193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除