python etl 大猩猩_大数据ETL实践探索 ---- 使用python 进行 快速EDA综合可视化

本文介绍了使用Python进行ETL处理,特别是医疗数据的清洗和可视化。首先,通过pandas对数据进行预处理,包括删除不必要的列。然后,详细阐述了如何安装和配置PostgreSQL数据库,以及如何将数据存储到数据库中。最后,讨论了数据入ES的映射设置,并提到了大数据可视化的工具如Kibana和Superset。
摘要由CSDN通过智能技术生成

可视化处理的前置处理

数据清洗

对于可视化的过程,拿到一份数据,我们首先要做的是进行数据清洗。我在这篇博文:数据清洗的目的,方法

介绍了数据清洗的一个通用步骤。

针对这个通用流程,我们 准备了一份医疗领域 的通用 样例数据,准备进行分析探查以及基本的可视化工作。

使用pandas 对数据进行处理

通过文件加载,我们首先需要将文件中的数据转化为pandas 的dataframe ,

假设我们有一个脱密后的HIS数据

# 删除不需要的列

medicalTest_Delete_list= ["序号"]

medicalTest_str_list = [

"诊断编码(ICD编码)"

,"诊断名称"

,"出院小结"

,"出院小结"

,"医院科室"]

medicalTest_IntegerType_list = ["序号","实际住院天数"]

medicalTest_category_list = ["诊断编码(ICD编码)","诊断名称","医院科室"]

medicalTest_FloatType_list = ["基金支付金额","总金额"]

medicalTest_DateType_list = ["入院日期",

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值