IT行业导览-4.3-数据分析师

岗位名称

数据工程师,数据科学家。
这里写图片描述

定义

数据分析,是指用适当的统计学方法对大量数据进行分析,为提取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。

定义中的几个名词:统计学、大量数据、详细研究。

  1. 统计学
    就是统计学科,我们以前学的求平均数、方差、中位数等等,跟数学联系比较紧密,统计学学得好是做数据分析的基础。
  2. 大量数据
    分析目标规模要大,小规模数据体现不出群体的特征,代表不了群体、一般特征,数据分析的目的是找出群体的规律,为己所用,代表不了群体的规律,就算找出来了也意义不大。
  3. 详细研究
    指的是使用各种方法对数据进行分析,一般都是用统计学上现有的模型,比如回归分析、傅立叶变换、支持向量机。
    选定一个模型,设置参数,使用已有数据训练模型,再拿另一部分已有的数据套入模型,运算得到一个结果,看这个结果准确度如何,如果准确度很好,就拿到现有产品中使用,如果准确度不高,调整参数,重新训练、验证。如果调整了很多次参数之后,准确度还不高,换一种模型,再试,直到找出一个合适的模型、合理的参数。得到模型以后,拿到生产环境使用,验证效果,后续再不断调优。

这里写图片描述

数据分析的过程

收集数据,处理数据,统计和分析,得出结论。以我们组数据分析师的一个任务为例:

  1. 需求:预测某一个家庭下个月用电量
    现在我们已经从合作伙伴那里拿到2w个电表过去3年的每天的抄表数据,在业务层面上,每个电表可以看作一个家庭,预测某一个家庭就是预测某一个电表。相当于我们现在要预测某一个电表下次读数是多少。
  2. 数据整理和清洗
    有一些抄表数据为负数、空、0,这些是不对的,每个电表都会有一个读数。现在好多还是人工抄表,所以数据质量比较差。一种方案是找出那些数据删掉,查询发现这样的数据占10%,这个比例比较大,如果删掉,损失数据太多了,因此我们进行了修正。对于异常的数据,使用前后各7天抄表数的中位数替换,经过这样的处理,异常值大幅下降,变为0.1%,这些数据可以删掉或忽略掉。
  3. 查阅资料选择预测模型
    这里选取了几种模型:q相结合的Holt-Winters预测模型、基于月度数据电量的(SE-GM)模型、多元线性回归模型、依据上年用电量数据进行同比预测。
  4. 具体预测过程,完善模型。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值