脱敏算法—均值化、哈希

均值化

平均值方案经常针对数值型数据,先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。

常见的应用数据:年龄、收入、各种价格、成绩、人口统计数据

import pandas as pd
import random
import numpy as np

df = pd.read_csv('D://Codes/data set/data_wuliu.csv', encoding="utf-8",sep=',')
print(df.head())

# 原始敏感数据
sensitive_data = df['订单行']
# 指定范围的敏感数据求和
data_sum = sum(sensitive_data)
# 计算平均值
data_mean = data_sum / len(sensitive_data)

# 脱敏后的数据列表
desensitized_data = []
# 遍历每个敏感数据
for data in sensitive_data:
    # 计算脱敏后的数据
    desensitized_data.append(round(random.uniform(data_mean - 5, data_mean + 5),2))


df['订单行'] = desensitized_data
print(df)

'''
   订单号  订单行       
0  P096311   10   
1  P096826   10   
2      NaN   20 
   订单号    订单行      
0  P096311  17.70  
1  P096826  15.92  
2  NaN  16.20   

'''

哈希

常见Hash算法有MD5和SHA系列,目前MD5和SHA1已经被破解,一般推荐至少使用SHA2-256算法。对字符串、数字都可。

'''哈希算法 ,保留脱敏后的前八位'''
#哈希函数:相同的输入产生相同的输出,但是截取前几位,就无法破解吧
import hashlib
import pandas as pd
import random
df = pd.read_csv('D://Codes/data set/data_wuliu.csv', encoding="utf-8",sep=',')
print(df.head())
def hash_data(data):
    # 使用SHA256哈希函数
    hash_object = hashlib.sha256(data.encode())
    # 获取哈希值
    hashed_data = hash_object.hexdigest()
    desensitized_data = hashed_data[:8]
    return desensitized_data

data_list = df['货品']
# 遍历替换 调用函数
for i in range(len(data_list)):
    data = data_list[i]
    hashed_data = hash_data(data)
    data_list[i] = hashed_data
print(df['货品'])

'''
3    货品1
4    货品3

3    b216a26b
4    d834c62d
'''
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值