何为数据分析?数据分析流程是啥?

一、什么是数据分析

指用专业的统计分析方法对大量数据进行分析,并加以详细研究和概括总结,提取有价值的信息,形成有效的分析结论,从而影响业务决策

二、数据分析的重要性

一切事物,如果不能量化它,我们就没法真正理解它;如果不能理解它,我们就没法真正控制它;如果不能控制它,我们就没法真正改变它。

在大数据时代,人类大脑无法理解的复杂,而数据分析可以解读其中的含义;面对难以掌控的未知因素,而数据分析可以预测其中的规律。

数据分析能够弥补我们对直觉的过分自信,更科学合理地思考问题和做决策。

三、数据分析的作用

现状分析,过去发生了什么?例如通过描述性统计诊断业务状况

原因分析,为什么会发生?例如通过维度拆解和指标拆解等分析方法,并结合实际业务,寻找业务异常点

预测分析,将来可能发生什么?例如根据用户行为数据预测是否即将流失,并对即将流失的用户采取挽留措施

四、如何数据分析?

1.明确分析目的与思路

  • 思路决定结果,必须明确数据分析目的,形成清晰的思路框架,避免为了分析而分析

2.数据收集

基于分析目的去收集相关的数据集,大部分为公司的内部数据,也可能涉及外部数据

  • 关系型管理数据库(RMDB,利用SQL语言取数),数据仓库(WareHouse,利用HiveSQL取数)

  • 文件:excel、csv、txt等

  • 系统/平台:手动导出、selenium等python自动化脚本

  • 互联网:网络爬虫

  • API:requests请求库、解析json文件等

3.数据清洗

将数据整理成整洁干净并利于接下来分析的结构和格式,数据可能分布得比较零散,需要对各类数据集进行集成

  • 异常值、错误值、缺失值处理

  • 字段的拆分、合并、信息提取、格式转换等

  • 表关联:左、右、外(全)、内连接、笛卡尔积表等(左半、左反连接等)

  • 表结构转换:行转列(长表转宽表)、列转行(宽表转长表等)、行列转置、数据透视(逆透视)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值