数据分析(一):数据的获取、存储、清洗

逻辑路线:

  • 在进行数据分析前,必然得先获得数据;
  • 获得数据之后,考虑将数据存储在何处;
  • 存储数据后,需要将数据整理成期望的格式、排除一些异常

1)数据的获取

数据的获取其实才是最重要的环节,没有数据后续的处理分析也无从谈起;

数据往往属于保密内容,所以想要获得他人的数据,难度很大;

内部数据通常依赖其他部门提供,倘若没有专门的数据/运营部门来收集管理数据,也很难获得正确、完整的数据;并且涉及到跨部门合作沟通,经常效率不高,属于费力不讨好的事情。

综上,数据的收集和获取绝不是容易的事。

目前有以下几种数据的获取方法,或者说数据来源:

  1. 内部建立的数据库。高度依赖于企业的建设,还有待完善。
  2. 第三方数据机构提供,包含数据公司、行研咨询公司。费用昂贵。
  3. 爬虫。灰色地带,各大网站的反爬机制越来越完善,技术难度高。

2)数据的存储

常见的容器:Excel、各种数据库(SQL、Access)、SPSS、云服务器

对不同的存储方式,采用合适的清洗方式和工具

3)数据的清洗

数据清洗一般包括:提取、去重、缺失、格式

  1. 提取需要的数据指标
  2. 去除重复的数据
  3. 有些数据缺失,考虑填充或者舍弃
  4. 把数据改成易于处理的格式,例如时间、日期

使用的工具:Excel函数操作、Excel Query操作、SQL语言、Python的Pandas库中的方法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值