逻辑路线:
- 在进行数据分析前,必然得先获得数据;
- 获得数据之后,考虑将数据存储在何处;
- 存储数据后,需要将数据整理成期望的格式、排除一些异常
1)数据的获取
数据的获取其实才是最重要的环节,没有数据后续的处理分析也无从谈起;
数据往往属于保密内容,所以想要获得他人的数据,难度很大;
内部数据通常依赖其他部门提供,倘若没有专门的数据/运营部门来收集管理数据,也很难获得正确、完整的数据;并且涉及到跨部门合作沟通,经常效率不高,属于费力不讨好的事情。
综上,数据的收集和获取绝不是容易的事。
目前有以下几种数据的获取方法,或者说数据来源:
- 内部建立的数据库。高度依赖于企业的建设,还有待完善。
- 第三方数据机构提供,包含数据公司、行研咨询公司。费用昂贵。
- 爬虫。灰色地带,各大网站的反爬机制越来越完善,技术难度高。
2)数据的存储
常见的容器:Excel、各种数据库(SQL、Access)、SPSS、云服务器
对不同的存储方式,采用合适的清洗方式和工具
3)数据的清洗
数据清洗一般包括:提取、去重、缺失、格式
- 提取需要的数据指标
- 去除重复的数据
- 有些数据缺失,考虑填充或者舍弃
- 把数据改成易于处理的格式,例如时间、日期
使用的工具:Excel函数操作、Excel Query操作、SQL语言、Python的Pandas库中的方法