1.需求分析
由于工作要求,业务库中的一些数据只有英文表名,而没有业务表中文名。因此,需要获得odps项目空间中stg层中数据表的注释信息,以下是获取脚本。因为是初次尝试,脚本写的很烂,但也是本人的一份学习经历,这里分享下,希望道友提出批评与指正。
2.脚本编辑
"""
-- 获得stg表的注释信息
"""
import io
import sys
from odps import ODPS
# 修改系统默认编码。数据中存在中文字符时需要执行此操作。
reload(sys)
sys.setdefaultencoding("utf-8")
# 连接odps
odps = ODPS(ACCESS_ID, ACCESS_KEY, DEFAULT_PROJECT, endpoint=END_POINT)
print("正常连接到odps({})的项目空间----".format('****_odps_****'))
# 1 获取目标数据
sql1 = 'select source_name,stg_table_name from ****_odps_****.stg_0601temp_qlqys where source_name is null;'
with odps.execute_sql(sql1).open_reader() as reader:
aim_data = []
for row in reader:
aim_data.append(str(row[1]))
count = len(aim_data)
print("阶段1:读取目标数据完成!")
print("读取目标数据{}条".format(count))
# 2 获取目标注释
aim_comments = []
for i in range(len(aim_data)):
Null_list = []
if odps.exist_table(aim_data[i]) :
t = odps.get_table(aim_data[i])
aim_t_a = t.comment.split('\t')
# print(aim_t_a)
if len(aim_t_a) >2 :
aim_t = aim_t_a[1]
else:
aim_t = aim_t_a[0]
tb_comment = (aim_data[i], aim_t)
aim_comments.append(tb_comment)
else:
Null_list.append(aim_data[i])
print("不存在的表清单为:"+'\n',Null_list)
print("阶段2:已经获取目标注释信息!")
# 3.获取数据落表
aim_table = odps.create_table(
'stg_0601aim_tb',
'source_name string, stg_table_name string',
if_not_exists = True
)
# --写入数据
with aim_table.open_writer() as writer:
for j in range(len(aim_comments)):
writer.write(aim_comments[j])
print("阶段3:目标注释信息已经写入表stg_0601aim_tb")
# over