数据库中敏感字段的标记、标示

数据治理需要面临和解决的最重要的问题是,企业这么多的数据库,每个数据库这么多的表,每个表这么多的字段,如何进行信息资产的分类分级。

通过以下方法,可以自动的取企业所有数据库、所有表、所有字段,根据字段的值,利用正则表达式等方式判断此字段是否属于用户敏感信息,如姓名、手机、地址、身份证等。

最终形成数据的风险地图,库、表、字段、敏感类型和等级,可以为统一加解密、统一日志等提供服务。

 

#coding:utf-8

'''
author:Eleven
Python3
'''


import pymysql
import re

# 通过正则匹配出个人敏感信息,如姓名、手机号码、地址、身份证号码、银行卡号
def check_secret(value):
phone_pattern = '^((13[0-9])|(14[5,7,9])|(15[^4])|(18[0-9])|(17[0,1,3,5,6,7,8]))\\d{8}$' # 匹配手机号码
if re.match(phone_pattern, value):
return ('secret_phone') # 标记字段是否涉密,以及涉密类型(如姓名、手机号码、地址、身份证号码、银行卡号)
else:
return ('no_secret')


class DB(object):
def __init__(self,ip,username,password):
self.ip = ip
self.username = username
self.password = password
self.db = pymysql.connect(self.ip,self.username,self.password)
self.cursor = self.db.cursor()

# 通过schemata获取所有数据库名称
def get_database(self):
self.cursor.execute("SELECT schema_name from information_schema.schemata ")
database_list = self.cursor.fetchall()
result = []
for line in database_list:
if line[0] not in ['information_schema','mysql','performance_schema','test','scan_result']: #排除默认的数据库
result.append(line[0])
return result

# 获取表名
def get_table(self,database):
self.cursor.execute("select table_name from information_schema.tables where table_schema= '%s' " % database)
table_list = self.cursor.fetchall()
result = []
for line in table_list:
result.append(line[0])
return result

# 获取字段名
def get_column(self,database,table):
self.cursor.execute("select column_name from information_schema.columns where table_schema='%s' and table_name='%s'" % (database,table))
column_list = self.cursor.fetchall()
result = []
for line in column_list:
result.append(line[0])
return result

# 获取字段内容
def get_content(self,database,table,column):
self.cursor.execute("select %s from %s.%s LIMIT 0,1"%(column,database,table))
content = self.cursor.fetchall()
if content:
return content[0][0]

def __del__(self):

self.db.close()



if __name__ == '__main__':
with open('ip.txt','r') as f:
db = DB(f.read(),'root','root')
databases = db.get_database()
for database in databases:
tables = db.get_table(database)
for table in tables:
columns = db.get_column(database,table)
for column in columns:
data = db.get_content(database,table,column)
data = str(data) # 转成字符串,否则正则报错
print(database,table,column,data,check_secret(data)) # 输出结果

 

 

 

 最终输出的数据标识、标示结果,如下数据库:

 

转载于:https://www.cnblogs.com/Eleven-Liu/p/9912418.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值