1、ETL简介
大部分可用数据都是存放于文本文件中的。这些数据可以是非结构化文本(如一篇推文或文学作品),也可以是比较结构化的数据,其每一行都是一条记录,多个字段之间由特殊字符分隔,如逗号、制表符或管道符号“|”。
文本文件有可能会很大,一个数据集可能会分布在几十甚至几百个文件中,其中的数据可能并不完整或充斥大量脏数据(dirty data)。虽然存在这么多变数,但还是会有读取和使用文本文件数据的需求,这几乎是难以避免的。
只要有数据文件存在,就需要从文件中获取、解析数据并转换为有用的格式,然后执行某些操作。实际上,该过程有一个标准术语,就是“抽取-转换-加载”(extract-transform-load,ETL)。
抽取是指按需读取数据源并解析数据源的处理过程。转换则是清洗和规格化(normalize)数据,还有组合、分解或重组其内部记录。加载是指将转换后的数据存入新位置,可以是另一个文件,也可以是数据库。
2、文本文件读取
ETL的第一部分是“抽取”,这涉及文件的打开和内容读取操作。这一过程看起来很简单,但即便是这么一个简单的过程也会碰到困难,如文件大小问题。如果文件太大而无法放入内存进行操作,那就需要精心构建代码,每次只处理一小段文件,有可能是每
本文详细介绍了Python中数据文件的处理,包括ETL过程、文本文件读取、Excel文件操作和数据清洗。文章指出,ETL是数据处理的基础,涉及到抽取、转换和加载三个阶段。文本文件的读取要注意字符编码和非结构化文本的处理。Excel文件处理可通过csv模块简化,而数据清洗则涉及到处理脏数据、排序和数据清洗的陷阱。网络数据的获取方法包括FTP、HTTP/HTTPS协议和API,其中API和序列化处理如JSON和XML是常见的数据格式。网络数据的序列化处理和爬取需要考虑合法性和服务器负载问题。
订阅专栏 解锁全文

1830

被折叠的 条评论
为什么被折叠?



