数据脱敏
文章平均质量分 55
colorknight
这个作者很懒,什么都没留下…
展开
-
数据脱敏(八)静态脱敏
提供ftp,sftp,百度盘,阿里云文件系统,腾讯文件系统等多种文件系统连接插件及配套读写算子。数据流程以爬取的工商数据为基础,合并从百度百科,搜狐,医院,学校,党政机关,ICP,地图信息等,中间经过数据合并,去重,调用API接口识别行业,指定ID(MD5算法)等,最终入库。静态脱敏一般从已存在的数据库或数据集中获取数据,经过脱敏处理后写入新的数据库或文件,构建个简单的流程如下。配合算子平台提供的各种算法以及简单快捷的算子开发方式,可快速构建静态脱敏流程。静态脱敏-文件系统连接器。静态脱敏-数据库连接器。原创 2024-02-26 23:12:08 · 898 阅读 · 0 评论 -
数据脱敏(七)脱敏算法-洗牌算法
"洗牌脱敏"是一种数据处理技术,主要用于保护个人隐私和数据安全。需要注意的是,洗牌脱敏虽然可以保护个人隐私,但也可能导致数据失真,影响数据分析的准确性。因此,在使用洗牌脱敏时,需要权衡隐私保护和数据质量之间的关系。3.执行洗牌:使用编程语言或数据处理工具,对原始数据进行洗牌操作。这可以是全量洗牌,也可以是根据条件进行部分洗牌。2.洗牌策略:根据业务需求和法规要求,制定合适的洗牌策略。4.验证和测试:在洗牌完成后,需要对数据进行验证和测试,确保洗牌效果符合预期,且不影响数据的正常使用。原创 2024-02-25 13:23:56 · 514 阅读 · 0 评论 -
数据脱敏(三)脱敏算法-遮盖算法
脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据 遮盖脱敏是一种数据脱敏技术,它的主要目的是通过隐藏或替换敏感信息来保护数据安全,同时保持数据的其他特性不变,以便于数据的进一步使用和分析。这种脱敏技术适用于需要对敏感数据进行展示或分享的场景,例如在开发测试、数据分析、报告生成等过程中。在使用遮盖脱敏时,可以根据需要选择不同的脱敏规则,如保留特定位置的字符、替换为指定字符、字符前后遮盖等。例如,可以选择仅显示身份证号的前几位和后几位,而隐藏中间敏感的数字;或者使用特定的原创 2024-01-25 15:27:27 · 834 阅读 · 0 评论 -
字符串随机生成工具(开源)-Kimen(奇门)
由于最近笔者在开发数据脱敏相关功能,其中一类脱敏需求为能够按照指定的格式随机生成一个字符串来代替原有信息,数据看起来格式需要与原数据相同,如:电话号码,身份证号以及邮箱等。在网上搜索了下,发现没有特别合适的开源工具,于是秉承着没有开源就自己写的宗旨。笔者开发了一个小的开源工具--Kimen(奇门)。这个工具可以按照给定的表达式随机生成字符串,简单易用。项目代码不多,但用到了些编程技巧,如:antlr的使用。但更多是对解决这个字符串随机生成问题的设计思考。原创 2024-01-25 09:00:00 · 1366 阅读 · 0 评论 -
数据脱敏(一) 基本概念
静态数据脱敏(Static Data Masking),采用先脱敏后分发的策略,一般是将生产环境数据先脱敏,再拷贝到测试或开发库中,导出到其他环境的数据已经改变了原始数据的内容,使得脱敏后的数据成为了测试开发源数据。动态数据脱敏:在数据使用过程中进行脱敏,即在对数据进行读取或写入的同时,进行脱敏处理。总的来说,静态数据脱敏和动态数据脱敏的主要差别在于处理时间(脱敏发生在数据存储或传输过程中,还是数据使用过程中)和处理对象(脱敏是针对存储或传输过程中的数据,还是针对使用过程中的数据)。原创 2024-01-14 15:55:32 · 1312 阅读 · 0 评论 -
数据脱敏(二)脱敏算法-哈希脱敏
它将原始数据(如密码、身份证号等)通过哈希算法转换成固定长度的哈希值,即使哈希值被泄露,也无法逆向还原出原始数据。首先构建流程,从csv文件读取内容,之后对联系方式分别进行MD5,SHA-1,SHA-256计算,并输出结果。哈希算子中选择对应的哈希算法,盐值可选,为了方便对比结果,输出模式选择新增一列存储计算结果。流程图如下,从csv文件选取学号,姓名,联系电话三个字段,分发给三个哈希算子。脱敏算法篇使用阿里云数据脱敏算法为模板,使用算子平台快速搭建流程来展示数据。流程结果-SHA-256。原创 2024-01-21 21:50:38 · 888 阅读 · 0 评论