浅谈pandas，pyspark 的大数据ETL实践经验

最新推荐文章于 2024-07-29 14:01:21 发布

shiter

最新推荐文章于 2024-07-29 14:01:21 发布

阅读量4.7k

点赞数 2

分类专栏：大数据机器学习实践探索文章标签：大数据清洗 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyaninglm/article/details/80692831

版权

大数据机器学习实践探索专栏收录该内容

130 篇文章 124 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

0.序言
1. 数据接入
2. 脏数据的清洗
3. 缺失值的处理
4. 数据质量核查与基本的数据统计
5.数据导入导出
参考文献
大数据ETL 系列文章简介

0.序言

本文主要以基于AWS 搭建的EMR spark 托管集群，使用pandas pyspark 对合作单位的业务数据进行ETL ---- EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载） 等工作为例介绍大数据数据预处理的实践经验，很多初学的朋友对大数据挖掘，数据分析第一直观的印象，都只是业务模型，以及组成模型背后的各种算法原理。往往忽视了整个业务场景建模过程中，看似最普通，却又最精髓的数据预处理或者叫数据清洗过程。

1. 数据接入

我们经常提到的ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，首先第一步就是根据不同来源的数据进行数据接入，主要接入方式有三：

1.批量数据
可以考虑采用使用备份数据库导出dmp，通过ftp等多种方式传送，首先接入样本数据，进行分析
2.增量数据
考虑使用ftp，http等服务配合脚本完成
2.实时数据
消息队列接入，kafka，rabbitMQ 等

数据接入对应ETL 中的E----EXTRACT（抽取），

了解本专栏

超级会员免费看

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。