工业互联网隐私保护技术

最新推荐文章于 2024-01-09 00:56:11 发布

流年亦梦

最新推荐文章于 2024-01-09 00:56:11 发布

阅读量2.2k

点赞数

分类专栏：工业互联网文章标签：大数据隐私保护工业互联网

本文链接：https://blog.csdn.net/qq_44628230/article/details/119000823

版权

工业互联网专栏收录该内容

1 篇文章 0 订阅

订阅专栏

隐私保护技术概述

隐私
简单的说，隐私就是个人、机构等实体不愿意被外部世界知晓的信息。在具体应用中，隐私即为数据所有者不愿意被披露的敏感信息，包括敏感数据以及数据所表征的特性。现有的隐私度量都可以统一用“披露风险”来描述。披露风险表示攻击者根据所发布的数据和其他背景知识，可能披露隐私的概率。
若𝑠表示敏感数据，事件𝑆𝑘表示“攻击者在背景知识𝐾的帮助下揭露敏感数据𝑠”，则披露风险𝑟(𝑠,𝑘)表示为
𝑟(𝑠,𝑘)=𝑃𝑟 (𝑆𝑘)
对于数据集来说，如果数据所有者最终发布数据集𝐷的所有敏感数据的披露风险都小于阈值𝑎, 𝑎∈[0, 1]，则称该数据集的披露风险为𝑎。特别地，不做任何处理所发布数据集的披露风险为1；当所发布的数据集的披露风险为0时，这样发布的数据被称为实现了完美隐私。
隐私保护
隐私保护技术的出现主要就是为了解决隐私披露的问题。实施数据隐私数据保护主要考虑以下两个方面：
（1）如何保证数据应用过程中不泄露隐私；
（2）如何更有利于数据的应用。
当前隐私保护领域的研究工作主要集中于如何设计隐私保护原则和算法更好的达到这两方面的平衡，其主要研究方向为：
（1）通用隐私保护技术
（2）面向数据挖掘的隐私保护技术
（3）基于隐私保护的数据发布原则
（4）隐私保护算法
隐私保护技术
隐私保护技术需要在保护隐私的同时，兼顾对应用的价值以及计算开销。通常从以下几个方面对隐私保护技术进行性能评估：
（1）隐私保护度：通常通过发布数据的披露风险来反映，披露风险越小，隐私保护度越高。
（2）数据缺损：是对发布数据质量的度量，它反映通过隐私保护技术处理后数据的信息丢失，数据缺损率越高，信息丢失越多，数据利用率越低。
（3）算法性能：一般利用时间复杂度对算法性能进行度量。
现有的隐私保护技术大致可以分为以下几种：
（1）基于数据失真的技术：使敏感数据失真但同时保持某些数据或数据属性不变的方法。例如采用添加噪声、交换等技术对原始数据进行扰动处理，但要求保证数据处理后的数据仍然可以保持某些统计方面的特性，以便进行数据挖掘等操作。
（2）基于数据加密的技术：采用加密技术在数据挖掘过程中隐藏敏感数据的方法。多用于分布式应用环境，如安全多方计算等。
（3）基于限制发布的技术：根据具体情况有条件地发布数据。如不发布数据的某些阈值，数据泛化等。
这些方法给防止用户的隐私数据泄露带来好处，但同时也存在很多的自身的缺陷。例如：基于数据失真的技术效率比较高，但因为敏感数据的失真，会导致一定程度的信息丢失；基于加密的技术能保证最终数据的准确性和安全性，但是在进行数据加密过程计算开销比较大；而限制发布技术的优点是能保证所发布的数据一定真实，但是因为是有条件的选择性的发布数据，所发布的数据是不完整的，会造成一定的信息丢失。

工业互联网中的隐私

工业4.0是实现传统工业平台与大数据、人工智能等最新智能技术深度融合的最终目标，它主要关注在M2M系统中的大规模部署和可行利用，以提高自动化程度，包括自适应监控、数据分析和挖掘、故障诊断和紧急处理。
尽管智能化生产可以解放员工并提供更流畅的生产流程，但生产过程中的数据安全是实现可靠生产的关键问题之一。适当的数据隐私保护不仅使公司能够在确保数据安全的同时有效利用数据，而且对工业互联网的可持续健康生态系统具有重要意义。
例如，在工业互联网系统中，一家公司可以从其设备、传感器甚至资产中收集原始数据。这些原始数据使公司能够更快地提供可扩展和可靠的应用程序，以满足客户多变的需求。然而，原始数据中可能存在私人信息，这些私人信息如果从原始数据中被黑客非法挖掘出来，将会造成很严重的隐私泄露风险。
工业互联网中的隐私大致包括以下几种类型：
（1）数据隐私：对于工业互联网系统，人们可以通过数据挖掘获得许多有价值的信息，如设备运行状态、回报率和制造状态。因此，产生的各种数据受到黑客的攻击所导致的数据隐私的泄露将给各行各业造成严重的经济损失。
（2）位置隐私：这是指使用网络服务时节点位置的泄露。云系统或边缘系统中实体的私有位置信息不愿意被其他节点访问，当位置信息被披露时，其他人就可以在没有授权的情况下跟踪该实体。
（3）查询方法和身份隐私：数据完整性验证过程和查询过程可能涉及查询方法和范围的隐私泄露。此外，节点在参与网络活动时还可能遭受恶意的隐私拦截或窃听，导致身份信息泄露。
总的来说，从终端设备、传输链路到存储和处理数据的云平台，恶意竞争对手可能会利用私有数据推断工厂生产信息，甚至窃取工厂机密文件，进行有针对性的高级持续威胁攻击。因此，隐私泄露会削弱整个制造过程的安全性，并使企业遭受严重的经济损失。

基于限制发布的隐私保护技术

限制发布
限制发布即是有选择的发布原始数据、不发布或者发布精度较低的敏感数据，以实现隐私保护。当前的研究主要集中于“数据匿名化”：即在隐私披露风向和数据精度间进行折中，有选择地发布敏感数据及可能披露隐私数据的信息，但保证对敏感数据及隐私的披露风险在可容忍范围内。
当前对于数据匿名化的研究重点：
（1）研究设计更好的匿名化原则，使具有此原则发布的数据既能很好地保护隐私，又具有较大的利用价值。
（2）针对特定匿名化原则设计更“高效”的匿名化算法。
数据匿名化
数据匿名化一般采用两种基本操作：
（1）抑制：抑制某数据项，亦即不发布该数据项。
（2）泛化：泛化是对数据进行更概括、抽象的描述。例如对整数泛化成它所在的一个区间。
所处理的原始数据一般为数据表形式，包含的属性大致为：
（1）显式标识符：能唯一标识单一个体的属性。如身份证号码，姓名等。
（2）准标识符：联合起来能唯一标识一个人的多个属性。如邮编、生日、性别等联合起来可以唯一标识一个人。
（3）敏感属性：包含隐私数据的属性。例如不想被人知道的疾病、薪资等信息。
在这里插入图片描述
例如在这两张表中，第一张是用户的会员注册信息表，第二张是对外发布的医疗信息表。其中姓名对应的一列是显示标识符，年龄、性别、邮编对应的列是准标识符，疾病类型则是敏感属性。数据脱敏的第一步首先对所有标识符列进行移除或是脱敏处理，使得攻击者无法直接标识用户，也就是第二张表中将用户姓名抹去了，但是如果发布这样简单匿名处理的数据，同样会带来数据泄露的风险。因为如果通过两张不同数据来源的表进行关联，对年龄，性别，邮编的值进行匹配，很快就可以定位出张三患有心脏病的隐私数据。这种通过某些属性与外部表链接的攻击称为链接攻击。
k-anonymity
基于限制发布的隐私保护技术通常包括三种算法原则，第一种称为k-匿名(k-anonymity)，是Samarati和Sweeney在1998年提出的技术，该技术可以保证存储在发布数据集中的每条个体记录对于敏感属性不能与其他的k-1个个体相区分，即k-匿名机制要求同一个准标识符至少要有k条记录，使得观察者无法通过准标识符进行链接攻击。
在这里插入图片描述
以上述医疗数据为例，这张表中展示的是对邮编和年龄泛化后的数据。从表中可以看到，经过泛化后，有多条纪录的准标识列属性值相同，例如第二行和第三行的准标识列属性相同，所有准标识列属性值相同的行的集合被称为相等集。k-匿名要求对于任意一行纪录，其所属的相等集内纪录数不小于k，即至少有k-1条纪录的准标识列属性值与该条纪录相同。当针对大数据的攻击者在进行链接攻击时，对于任意一条记录的攻击同时会关联到相等集中的其他k-1条记录。这种特性使得攻击者无法确定与特定用户相关的记录，从而保护了用户的隐私。
k-anonymity能保证三点：1.攻击者无法知道某个人是否在公开的数据中2.给定一个人，攻击者无法确认他是否有某项敏感属性3.攻击者无法确认某条数据对应的是哪个人
但从另一个角度看，k-匿名技术虽然可以阻止身份信息的公开，但无法防止属性信息的公开，导致其无法抵抗同质攻击，背景知识攻击等情况：
（1）同质化攻击：某个k-匿名组内对应的敏感属性的值也完全相同，这使得攻击者可以轻易获取想要的信息。如在上面的k-匿名医疗信息表中，第1-3条记录的敏感数据是一致的，因此这时候k-匿名就失效。观察者只要知道表中某一个用户的邮编是476***，年龄在20多岁，就可以确定他有心脏病。
（2）背景知识攻击：即使k-匿名组内的敏感属性值并不相同，攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息。如果观察者通过邮编和年龄确定女性用户王一在k-匿名医疗信息表的等价集3中，同时观察者知道王一患心脏病的可能很小，那么他就可以确定王一曾经骨折。
l-diversity
l-diversity保证了每一个等价类的敏感属性至少有l个不同的值，使得攻击者最多以1/l的概率确认某个体的敏感信息，一定程度上能够解决k-anonymity中的同质化攻击问题。另外，l-diversity还有两种其他形式：
（1）基于熵的l-diversity
用𝑝(𝐸,𝑠)表示等价类E中敏感属性值为s的记录的百分比，那么等价类E的熵可以定义为：
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐸)=−∑_𝑠𝜖𝑆▒〖𝑝(𝐸,𝑠)𝑙𝑜𝑔𝑝(𝐸,𝑠)〗

其中熵越大，标识等价类的敏感属性值分布越均匀，攻击者揭露个人的隐私越困难。如果每个等价类的熵𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐸)>𝑙𝑜𝑔𝑙，那么所发布的数据满足基于熵的l-diversity。
（2）递归（c，l）-diversity：
设等价类E中敏感属性有m种取值，ri表示该等价类中第𝑖频繁的敏感属性值的个数，如果每个等价类都满足
在这里插入图片描述
那么就说所发布的数据满足递归（c，l）-diversity。

存在的缺点：
（1）可能难以实现且无必要实现。比如疾病检测报告，假设敏感属性只有”阳性“和”阴性“，10000条记录中分别占1%和99%，也就是阳性数据在全局占比特别小，这时候就没有必要也很难保证每一个等价类中都有阳性和阴性这两种敏感属性。如果一个等价类中均为阴性，并没有必要实现2-diversity的。
（2）不足以阻止属性公开
a.偏斜性攻击（Skewness Attack）
还是假设敏感属性只有”阳性“和”阴性“，在一个等价类中有49个”阳性“和1个”阴性“。如果使它满足了2-diversity条件，那么在该类中的个体将有98%的概率被认为是”阳性“，这将是一种很严重的隐私风险。
b.相似性攻击（Similarity Attack）
比如如果敏感数据是“工资”，某一等价类中的取值全在3k-5k之间，那么观察者只要知道用户在这个等价类中就可以知道他的工资所在的范围水平，而并不用知道具体数值。
t-closeness
定义：令𝑃={𝑝1,𝑝2,…,𝑝𝑚 }，𝑄𝑖={𝑞1,𝑞2,…,𝑞𝑚}分别表示各敏感值的全局分布和等价类𝐶𝑖 中的分布，对任意等价类𝐶𝑖，若𝑃与𝑄𝑖的距离𝐷[𝑃,𝑄𝑖]满足： 𝐷[𝑃,𝑄𝑖 ]<𝑡，则发布的数据满足匿名化原则t-closeness。其中阈值𝑡𝜖[0,1]，度量距离可采用可变距离：
在这里插入图片描述
或KL距离：

t-closeness在l-diversity的基础上，考虑了敏感属性的分布问题，它要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布。

参考：
https://blog.csdn.net/m0_38068229/article/details/80670726
https://blog.csdn.net/qq_42634201/article/details/89516217
https://blog.csdn.net/weixin_34183910/article/details/90394124
https://max.book118.com/html/2017/0121/85870026.shtm
Y. Huo, C. Meng, R. Li and T. Jing, “An overview of privacy preserving schemes for industrial Internet of Things,” in China Communications, vol. 17, no. 10, pp. 1-18, Oct. 2020, doi: 10.23919/JCC.2020.10.001.