数据治理需要面临和解决的最重要的问题是,企业这么多的数据库,每个数据库这么多的表,每个表这么多的字段,如何进行信息资产的分类分级。
通过以下方法,可以自动的取企业所有数据库、所有表、所有字段,根据字段的值,利用正则表达式等方式判断此字段是否属于用户敏感信息,如姓名、手机、地址、身份证等。
最终形成数据的风险地图,库、表、字段、敏感类型和等级,可以为统一加解密、统一日志等提供服务。
#coding:utf-8
'''
author:Eleven
Python3
'''
import pymysql
import re
# 通过正则匹配出个人敏感信息,如姓名、手机号码、地址、身份证号码、银行卡号
def check_secret(value):
phone_pattern = '^((13[0-9])|(14[5,7,9])|(15[^4])|(18[0-9])|(17[0,1,3,5,6,7,8]))\\d{8}$' # 匹配手机号码
if re.match(phone_pattern, value):
return ('secret_phone') # 标记字段是否涉密,以及涉密类型(如姓名、手机号码、地址、身份证号码、银行卡号)
else:
return ('no_secret')
class DB(object):
def __init__(self,ip,username,password):
self.ip = ip
self.username = username
self.password = password
self.db = pymysql.connect(self.ip,self.username,self.password)
self.cursor = self.db.cursor()
# 通过schemata获取所有数据库名称
def get_database(self):
self.cursor.execute("SELECT schema_name from information_schema.schemata ")
database_list = self.cursor.fetchall()
result = []
for line in database_list:
if line[0] not in ['information_schema','mysql','performance_schema','test','scan_result']: #排除默认的数据库
result.append(line[0])
return result
# 获取表名
def get_table(self,database):
self.cursor.execute("select table_name from information_schema.tables where table_schema= '%s' " % database)
table_list = self.cursor.fetchall()
result = []
for line in table_list:
result.append(line[0])
return result
# 获取字段名
def get_column(self,database,table):
self.cursor.execute("select column_name from information_schema.columns where table_schema='%s' and table_name='%s'" % (database,table))
column_list = self.cursor.fetchall()
result = []
for line in column_list:
result.append(line[0])
return result
# 获取字段内容
def get_content(self,database,table,column):
self.cursor.execute("select %s from %s.%s LIMIT 0,1"%(column,database,table))
content = self.cursor.fetchall()
if content:
return content[0][0]
def __del__(self):
self.db.close()
if __name__ == '__main__':
with open('ip.txt','r') as f:
db = DB(f.read(),'root','root')
databases = db.get_database()
for database in databases:
tables = db.get_table(database)
for table in tables:
columns = db.get_column(database,table)
for column in columns:
data = db.get_content(database,table,column)
data = str(data) # 转成字符串,否则正则报错
print(database,table,column,data,check_secret(data)) # 输出结果
最终输出的数据标识、标示结果,如下数据库: