R语言ETL工程系列:总论

640?wx_fmt=gif

作者黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。

邮箱:huang.tian-yuan@qq.com


前言

本篇是R语言ETL工程系列的第一篇,这个系列我们将讨论如何使数据预处理简洁便捷,本系列的宗旨是让这个过程显得更加轻松,让初学者快速入门这些基本概念和操作。


什么是ETL

我刚开始注意到ETL这个词的时候,是搜招聘信息的时候。我发现很多公司招人的时候有要求需要会ETL技术,于是进行了更加深入的了解。ETLExtract,Transfer,Load的简称,翻译成中文是提取、转换、加载。

640?wx_fmt=jpeg

广义的ETL技术包括数据的存储管理、规范化、审查等等。本系列指的ETL是狭义的ETL技术,也就是针对一个数据科学家,如果手头已经有了数据,如何把这份数据通过加载、形式的转化,最后得到一份直接能够进行分析的数据表格。
ETL这个过程在业界也有很多别称:数据清洗、数据整形、数据预处理等。你会发现相同名称的岗位,在不同的公司往往实际负责的任务会大相径庭。但是名称是次要的,它会随着时代的变更不断被改变和再定义。唯一不变的是,企业中、科研所、高效中存储的二维表数据,它们是必须经过多项预处理之后,才能够成为直接可用的有价值的数据。在数据中提取信息,在信息中

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值