目前用户要求系统能够很好的保护自己的隐私(不仅要保护固定的用户身份信息还要防治恶意者通过社交网络关系来分析处身份信息),数据挖掘人员又希望能够基于用户数据能更好的优化系统。基于这样的一个条件,这篇文章提出的基于聚类的社交网络隐私保护方法我觉得能够在二者之间有很好的平衡。保证数据在宏观上是准确的,局部信息某种程度的不准确性并不会影响到宏观性质的研究。
论文采用的技术就是将单个用户的信息通过聚类,抽取类别信息,既可以保护用户的真正准确的信息,又可以让数据挖掘人员收集到大致信息。同时还给关键信息和非关键信息做了不同强度的保护,让信息在安全和有效之间取得比较好的一个平衡。
数据处理上:
- 数值型数据用数值范围来代表
- 非数值型,利用层次树来进行泛化
在对节点进行聚类成簇的时候使用了优化,具体方法如下
选最远点这个很巧妙,能够防止最初的中心点周位一大片都是比较密集的,然后后面在聚类可能导致效果不好。
总结:文章这种方法感觉很好,而且写得很有逻辑,也不是那种很高深的,又或是甩一堆公式出来的那种,那种看起来好困难。还有就是在聚类成簇那里的优化虽然只改了一点点,但是我觉得就是会很有效果!还有数据上对数值型和非数值型分类处理,这个也是我需要学习的。