python etl 大猩猩_大数据ETL实践探索 ---- 使用python 进行快速EDA综合可视化

最新推荐文章于 2021-12-24 17:52:12 发布

weixin_39965161

最新推荐文章于 2021-12-24 17:52:12 发布

阅读量167

点赞数

文章标签： python etl 大猩猩

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39965161/article/details/111927436

版权

本文介绍了使用Python进行ETL处理，特别是医疗数据的清洗和可视化。首先，通过pandas对数据进行预处理，包括删除不必要的列。然后，详细阐述了如何安装和配置PostgreSQL数据库，以及如何将数据存储到数据库中。最后，讨论了数据入ES的映射设置，并提到了大数据可视化的工具如Kibana和Superset。

摘要由CSDN通过智能技术生成

可视化处理的前置处理

数据清洗

对于可视化的过程，拿到一份数据，我们首先要做的是进行数据清洗。我在这篇博文：数据清洗的目的，方法

介绍了数据清洗的一个通用步骤。

针对这个通用流程，我们准备了一份医疗领域的通用样例数据，准备进行分析探查以及基本的可视化工作。

使用pandas 对数据进行处理

通过文件加载，我们首先需要将文件中的数据转化为pandas 的dataframe ，

假设我们有一个脱密后的HIS数据

# 删除不需要的列

medicalTest_Delete_list= ["序号"]

medicalTest_str_list = [

"诊断编码(ICD编码)"

,"诊断名称"

,"出院小结"

,"出院小结"

,"医院科室"]

medicalTest_IntegerType_list = ["序号","实际住院天数"]

medicalTest_category_list = ["诊断编码(ICD编码)","诊断名称","医院科室"]

medicalTest_FloatType_list = ["基金支付金额","总金额"]

medicalTest_DateType_list = ["入院日期",

最低0.47元/天解锁文章

weixin_39965161

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。