数据科学简介
数据科学定义由Mason & Winggins(2010)提出的定义:按照以下五个步骤定义数据科学:(1)数据获取;(2)数据清洗;(3)数据探索;(4)数据建模;(5)数据解释。数据获取从其他地方(如网页或服务器)下载数据。从数据库或API(如MySQL、Twitter)中查询数据。从其他文件(如HTML文件或者是电子表格)中提取数据。自己生成数据(如读取传感器或进行调查)。数据清洗在所获取的数据中,缺失值、不一致、错误、怪异字符或冗余列屡见不鲜。所以必须清洗数据.
复制链接