数据清洗简介
Data Wrangling–regular expression
目录
前言
Raw data ⇒ Data Wrangling ⇒ Tidy data ⇒ Data Analysis ⇒ Data Knowledge
Data + Wrangling + Analysis = Data Product (or Knowledge)
初始被采集的数据是原始数据(Raw data),比如从传感器获得的数据,从不同网站爬取的数据,未做过处理的用户历史数据等。这些数据并不能直接进行存储或使用,因为这些数据并不足够“干净”。
一、Data Wrangling 的目的
Data Wrangling 的目的:
- 对数据进行处理,已达到满足后续的数据分析或储存的要求;
- 记录数据被处理的过程。
二、数据可能存在的问题
- Interpretability issue (数据可理解性)
- Data format issues (数据格式问题)