机器学习与隐私保护
机器学习与隐私保护方向,主要在做机器学习、深度学习相关差分隐私保护相关研究
Jomaron
你以为我是一个码农,其实我是一名演员。-->欢迎访问个人主页:http://qiuwy.com
展开
-
差分隐私— —再填坑
文章目录前言一、差分隐私二、问题提出1.什么是隐私?2.什么是差分?3.定义4.如何做到差分隐私?5.差分隐私的性能评估总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、差分隐私针对统计数据库的隐私泄露问题提出的新的隐私定义。二、问题提出现有匿名模型的局限性:特殊的攻击假设;一定的背景知识;无法对隐私保护强度进行量.原创 2020-11-21 17:07:30 · 3265 阅读 · 12 评论 -
差分隐私 走过的坑
差分隐私小记:学了隐私保护相关匿名模型后,初看差分隐私感觉真不是一个层次,好难理解,像是个大坑。书上的内容就给一对兄弟数据表,一个ε-差分隐私公式,然后两个实现机制。真的很难结合起来看懂,到底如何差分?如何实现?如何评估?以下是我初学时一直不理解的几个问题:...原创 2019-03-11 12:59:02 · 10332 阅读 · 33 评论 -
隐私保护——k-匿名模型及基本改进
基于匿名模型的隐私保护数据发布原创 2018-12-19 11:49:35 · 9817 阅读 · 4 评论 -
数据预处理——框架总结篇
数据预处理现实中的数据现实中的数据库数据很庞大,而且数据来源于“不同复杂各异”的数据源。数据库受噪声、缺失值、不一致数据的影响,使得数据低质量,导致低挖掘结果。为提高数据质量,和挖掘结果的质量,对数据预处理是必要的。原创 2018-09-27 22:42:26 · 5557 阅读 · 0 评论 -
数据挖掘(KDD)初学基础概要
数据挖掘(KDD) 从各种各样的应用数据中发现有趣数据模式。 数据源包括:数据库、数据仓库、Web、其他信息存储库。 可挖掘的数据类型:数据库数据、数据仓库数据、事务数据。...原创 2018-09-26 20:58:52 · 4139 阅读 · 0 评论 -
基于密度的算法之Optics算法
Optics算法——通过点排序识别聚类结构算法提出: 由于在DBScan算法中,变量ε-领域和Minpts是全局唯一的,当空间聚类密度不均匀时,聚类间距离相差很大时,聚类质量差。很多现实的数据集,内在的聚类结构不能够通过全局的密度参数来描述,数据空间中不同区域的聚类需要不同的局部密度。为了克服使用全局参数的缺点,Optics算法并不显示的产生结果类簇,而是为聚类分析生成一个簇排序...原创 2019-03-04 16:58:58 · 1413 阅读 · 0 评论 -
DBSCAN算法及Matlab实现
DBSCAN算法及Matlab实现——一种基于高密度连通区域的算法划分方法和层次方法旨在发现球状簇,它们很难发现任意形状的簇。为了发现任意形状的簇,我们把簇看作数据空间中被稀疏区域分开的稠密区域,即基于密度的聚类算法可发现任意形状的簇,这对于有噪声点的数据有重要作用。基于密度算法主要特点:发现任意形状的簇;可处理噪声点;一次扫描;需要密度参数作为终止条件。DBScan中...原创 2018-06-22 14:10:48 · 23053 阅读 · 4 评论 -
CURE算法和Matlab实现
CURE算法和Matlab实现——基于*质心*和基于*代表对象*方法之间的中间策略算法提出:很多聚类算法只擅长处理球形或者相似大小的聚类。另外有些聚类算法对孤立点比较敏感。 CURE算法解决了上述两个问题,选择基于质心和基于代表对象之间的中间策略,即选择空间中固定数目的具有代表性的点,而不是单个中心或对象来代表一个簇。簇的代表点产生方式:首先选择簇中分散的对象,然后根据一个特定的...原创 2018-06-21 16:33:36 · 4334 阅读 · 1 评论 -
ROCK算法及Matlab实现
ROCK算法及Matlab实现——对*分类属性数据*的层次聚类算法ROCK算法的提出:基于划分的k-means等算法是聚类大数据集的算法,它处理的数据对象仅限于数值型数据。而实际中大多数数据库和大的数据集不仅包括数值类型的数据,而且包括非数值型数据。如,布尔型(二值型),名义型,被称为分类属性数据。分类属性数据的属性是有限和无序的,且不能比较大小,数据间缺乏一种合理的相似度量,因此...原创 2018-06-20 22:01:23 · 3209 阅读 · 1 评论 -
Chameleon算法及Matlab实现
Chameleon(变色龙)算法——使用动态建模的多阶段层次聚类一种层次聚类算法,它采用动态建模来确定一对簇之间的相似度。算法思想:首先由数据集构造一个 k-最近邻图 Gk;再通过一种图的划分算法,将Gk图划分成大量较小的子图,每个子图代表一个初始的子簇;最后使用凝聚层次聚类算法,基于子簇的相似度反复合并子簇。**为引出**Chameleon变色龙算法的一些定义,先说一...原创 2018-06-19 17:11:12 · 7772 阅读 · 5 评论 -
BIRCH算法
BIRCH算法——使用聚类特征树的多阶段聚类上篇文章介绍了层次聚类的提出、分类和相关概念,以及给出了对于传统的纯粹的层次聚类的缺陷的解析: https://blog.csdn.net/qiu1440528444/article/details/80707845本章主要介绍进行优化后的层次聚类的算法之一:BIRCH算法。BIRCH算法是通过集成层次聚类和其他聚类算法来对大量...原创 2018-06-17 17:30:12 · 7854 阅读 · 0 评论 -
层次聚类-概念全解
层次聚类-概念全解需求分析: 之前学习的划分方法把对象集划分成一些互斥的群组,满足了聚类的基本要求。但在某些情况下,我们想把数据划分成不同层上群组,具有层次性。于是,层次聚类方法将数据对象组成层次结构或簇的树也称聚类树。根据层次分解是以自底向上(合并),还是自顶向下(分裂)方式,层次聚类方法可以进一步分为凝聚的和分裂的。纯粹的层次聚类方法的质量受限于:一旦合并或分裂执行,就不能修改...原创 2018-06-15 20:21:08 · 12270 阅读 · 0 评论 -
k-中心点算法(k-medoids)及Matlab代码实现
k-中心点算法(k-medoids)及Matlab代码1. 提出: 上篇文章给出了 k-means算法的具体思想和代码实现:https://blog.csdn.net/qiu1440528444/article/details/80611942k-means算法是每次选择簇的均值作为新的中心点,迭代直到簇中心不再变化(趋于稳定)。其缺点是对离群点特别敏感,因为一个很大的极端值对象...原创 2018-06-14 15:44:01 · 22754 阅读 · 39 评论 -
k-均值(k-means)及Matlab动态实现
k-均值(k-means)注:仅适合于数值属性的数据。1. 算法思想k-means算法,也称k-均值算法,它把N个对象划分成k个簇,用簇中对象的均值表示每个簇的中心点(质心),通过迭代使每个簇内的对象不再发生变化为止,此时的平方误差准则函数达到最优,即簇内对象相似度高,簇间相似度低。其具体过程描述如下:(1.)首先,随机选择k个对象,代表要分成的k个簇的初始均值或中心。 (2.)...原创 2018-06-07 20:48:08 · 30068 阅读 · 12 评论 -
信息论基础
信息论基础知识信息熵,条件熵,KL散度,三者关系信息增益,最大熵原理信息论信息论即香农信息论,是研究通信系统极限性能的理论。首要问题:对信息进行度量什么是信息? 当今是信息社会 信息的含义模糊如何度量信息? 一般来说,可判断是否获得信息,但无法准确度量信息。 应用数学工具,通过数学运算来度量信息。信息的度量信息的度量和不确定性消除的程度有关不确定性的程...原创 2018-10-11 21:56:31 · 4592 阅读 · 0 评论 -
数据挖掘——分类
分类基本概念分类:一种数据分析形式,它提取刻画重要数据类的模型。这种模型叫分类器,进而预测分类的(离散的、无序的)类标号。相关概念解释训练集:由数据库元组和与它们相关联的类标号组成。元组X用n维属性向量x=(x1,x2,x3……xn)表示,分别描述元组在n维数据库中的n个属性值的集合。每个元组都可预先定义为一个类,由一个称为类标号属性的数据库属性确定。类标号属性:是离散的和无序...原创 2018-10-10 21:52:21 · 28712 阅读 · 4 评论 -
Boosting 族 ——AdaBoost全解
~~~~~ ~~~~~~~~先从集成学习说起~~~~~ ~~~~~~~~机器学习:即由计算机系统处理很多数据建立一个模型,然后用该模型去处理新的数据。前言:对于传统的机器学习,我们是通过一个学习器去解决问题,而在集成学习里面我们用多个学习器去解决问题。集成学习(Ensemble methods)同质:使用同种类型的学习器。如决策树集成,神经网络集成异质:使用不同类型的学习器。~~...原创 2018-11-29 14:59:10 · 704 阅读 · 0 评论 -
概率论知识点
概率论与数理统计概率论的基本概念一一.随机现象 及其 统计规律性确定性现象与非确定性现象非确定性现象真的没有规律可循吗???然而并不是的。借用恩格斯的一句话可这样回答:“在表面上的是偶然性在起作用的地方,这种偶然性始终是受内部的隐藏着的规律支配的,而问题只是在于发现这些规律。”——恩格斯随机现象共同特点: 在个别试验中结果的出现具有不确定性,但在大量重复试验中又呈现规律性...原创 2019-03-04 16:55:14 · 1980 阅读 · 0 评论 -
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转载自作者:v_JULY_v来源:CSDN原文:https://blog.csdn.net/v_july_v/article/details/8203674版权声明:本文为博主原创文章,转载请附上博文链接! 从K近邻算法、距...转载 2019-03-18 20:57:06 · 1293 阅读 · 0 评论 -
k-近邻算法(KNN)(机器学习理论+python实战)
k-近邻算法(机器学习理论+python实战)前言对于其他分类算法:决策树归纳、贝叶斯分类、基于规则的分类、BP-神经网络分类、支持向量机、基于关联规则挖掘的分类,这些都是给定训练集,然后训练得到模型,再去预测新元组(测试集)。而k-近邻分类不同,它先将训练元组存储,直到给定一个预测元组,它才基于类比学习,即通过给定预测元组与存储的训练元组的相似性,对该元组进行分类。(因此该算法也称为惰性...原创 2019-07-26 09:46:23 · 1513 阅读 · 0 评论 -
机器学习与隐私保护
机器学习概念机器学习(Machine Learning.ML):是人工智能的一个分支,是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。让一个计算机程序针对某一个特定任务,从经验中学习,并且学习的越来越好。深度学习(Deep Learning.DL):是机器学习拉出的分支,是机器学习算法中的一种算法,一种实现机器学习的技术和学习方法。人工智能AI、机器学习ML、...原创 2019-07-26 11:53:45 · 10704 阅读 · 2 评论 -
聚类分析——聚类
聚类分析——聚类定义:把数据对象划分成子集的过程,每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中对象彼此相异。 形成聚类的原则就是:使类内部的相似性最大,类间的相似性最小。聚类方法:1. 划分的方法(基于距离的)k-均值(k-means):把N个对象划分成k个簇,用簇中所有对象的均值表示簇的中心点(质心);通过欧式距离划分各个对象,并迭代使每个簇中...原创 2018-09-27 10:53:24 · 2338 阅读 · 0 评论