均值化
平均值方案经常针对数值型数据,先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。
常见的应用数据:年龄、收入、各种价格、成绩、人口统计数据
import pandas as pd
import random
import numpy as np
df = pd.read_csv('D://Codes/data set/data_wuliu.csv', encoding="utf-8",sep=',')
print(df.head())
# 原始敏感数据
sensitive_data = df['订单行']
# 指定范围的敏感数据求和
data_sum = sum(sensitive_data)
# 计算平均值
data_mean = data_sum / len(sensitive_data)
# 脱敏后的数据列表
desensitized_data = []
# 遍历每个敏感数据
for data in sensitive_data:
# 计算脱敏后的数据
desensitized_data.append(round(random.uniform(data_mean - 5, data_mean + 5),2))
df['订单行'] = desensitized_data
print(df)
'''
订单号 订单行
0 P096311 10
1 P096826 10
2 NaN 20
订单号 订单行
0 P096311 17.70
1 P096826 15.92
2 NaN 16.20
'''
哈希
常见Hash算法有MD5和SHA系列,目前MD5和SHA1已经被破解,一般推荐至少使用SHA2-256算法。对字符串、数字都可。
'''哈希算法 ,保留脱敏后的前八位'''
#哈希函数:相同的输入产生相同的输出,但是截取前几位,就无法破解吧
import hashlib
import pandas as pd
import random
df = pd.read_csv('D://Codes/data set/data_wuliu.csv', encoding="utf-8",sep=',')
print(df.head())
def hash_data(data):
# 使用SHA256哈希函数
hash_object = hashlib.sha256(data.encode())
# 获取哈希值
hashed_data = hash_object.hexdigest()
desensitized_data = hashed_data[:8]
return desensitized_data
data_list = df['货品']
# 遍历替换 调用函数
for i in range(len(data_list)):
data = data_list[i]
hashed_data = hash_data(data)
data_list[i] = hashed_data
print(df['货品'])
'''
3 货品1
4 货品3
3 b216a26b
4 d834c62d
'''