作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。
邮箱:huang.tian-yuan@qq.com
前言
本篇是R语言ETL工程系列的第一篇,这个系列我们将讨论如何使数据预处理简洁便捷,本系列的宗旨是让这个过程显得更加轻松,让初学者快速入门这些基本概念和操作。
我刚开始注意到ETL这个词的时候,是搜招聘信息的时候。我发现很多公司招人的时候有要求需要会ETL技术,于是进行了更加深入的了解。ETL是Extract,Transfer,Load的简称,翻译成中文是提取、转换、加载。
广义的ETL技术包括数据的存储管理、规范化、审查等等。本系列指的ETL是狭义的ETL技术,也就是针对一个数据科学家,如果手头已经有了数据,如何把这份数据通过加载、形式的转化,最后得到一份直接能够进行分析的数据表格。
ETL这个过程在业界也有很多别称:数据清洗、数据整形、数据预处理等。你会发现相同名称的岗位,在不同的公司往往实际负责的任务会大相径庭。但是名称是次要的,它会随着时代的变更不断被改变和再定义。唯一不变的是,企业中、科研所、高效中存储的二维表数据,它们是必须经过多项预处理之后,才能够成为直接可用的有价值的数据。在数据中提取信息,在信息中