Python 数据文件与网络数据序列化存储详解

1、ETL简介

大部分可用数据都是存放于文本文件中的。这些数据可以是非结构化文本(如一篇推文或文学作品),也可以是比较结构化的数据,其每一行都是一条记录,多个字段之间由特殊字符分隔,如逗号、制表符或管道符号“|”。

文本文件有可能会很大,一个数据集可能会分布在几十甚至几百个文件中,其中的数据可能并不完整或充斥大量脏数据(dirty data)。虽然存在这么多变数,但还是会有读取和使用文本文件数据的需求,这几乎是难以避免的。

只要有数据文件存在,就需要从文件中获取、解析数据并转换为有用的格式,然后执行某些操作。实际上,该过程有一个标准术语,就是“抽取-转换-加载”(extract-transform-load,ETL)。

抽取是指按需读取数据源并解析数据源的处理过程。转换则是清洗和规格化(normalize)数据,还有组合、分解或重组其内部记录。加载是指将转换后的数据存入新位置,可以是另一个文件,也可以是数据库。

2、文本文件读取

ETL的第一部分是“抽取”,这涉及文件的打开和内容读取操作。这一过程看起来很简单,但即便是这么一个简单的过程也会碰到困难,如文件大小问题。如果文件太大而无法放入内存进行操作,那就需要精心构建代码,每次只处理一小段文件,有可能是每次操作一行数据。

1. 文本编码:ASCII、Unicode等

另一个可能的陷阱就是字符的编码,事实上现实世界中大部分交换的数据都在文本文件中。但是,不同的应用程序之间,不同人之间,当然还有不同国家之间,文本的准确含义都可能不一样。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wespten

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值