“东方国信杯”大赛常用数据分析方法及图表-笔记
一、运营商业务介绍
1.电信行业的三户模型
三户模型是建设、运营、支撑系统普遍运用的模型。以客户为中心,客户的需求成为支撑系统信息模型不断更新趋于完善的一个主要的驱动力。与客户这个实体概念关系最为紧密的概念就是用户和账户,三者相互关联又相互独立。这种关联就是一种映射的关系,而这三者又是相互独立的,分别体现了几个域的信息。
三户,即:
- 客户:体现社会域的信息 ;
- 用户 :体现业务域的信息;
- 账户 :体现资金域的信息。
三者关系:
客户与用户:一对多。例:一个人可以拥有多个手机号。
用户与客户:一对一。例:一个手机号只对应一个人。
客户与账户:一对多。例:一个人可以有多个银行账户。
用户与账户:一对多。例:一个手机号可以根据用处不同开通多个账户。
账户与用户:一对多。例:一个人可以授权给多个手机号来给账户充值缴费。
2.运营商常用的分析维度及指标
维度可以理解成分类,是事物或现象的某种特征,是指标值分类。可分为定性及定量两种,即字符型及数值型分组两种。
维度 | 含义 |
---|---|
省份 | 用户发展从哪个省入网 |
地市 | 用户发展从哪个地市入网 |
渠道 | 通过哪个营业厅入网,可以是实体营业厅或电子营业厅,也可以是集团客户发展来的 |
网络类型 | 实际应用的网络,2G、3G、4G、5G网络 |
终端类型 | 终端:如何进入网络的,可以通过手机、iPad等。终端类型:2G、3G、4G、5G终端 |
终端品牌 | 华为、小米、苹果等 |
套餐类型 | 订购的产品的标识:是否主副卡、是否融合套餐名称;2G\3G\4G\5G,套餐价格等 |
是否主副卡 | 两个卡共享一个套餐 |
是否融合 | 手机业务和宽带业务合并的一起 |
套餐名称 | 套餐的名字 |
在网时长 | 用户在入网到目前为止在网的时间 |
新增存量 | 刚刚入网的用户就是新增用户 |
是否停机 | 有没有停机 |
是否集团 | 是不是集团用户 |
合约类型 | 终端合约,资费合约等。如,送手机、送话费 |
用户性别 | 用户的自然属性 |
用户年龄 | 用户的自然属性 |
收入分档 | 用户实际使用的业务量进行分档 |
流量分档 | 用户实际使用的流量进行分档 |
是否活跃 | 用户的实际使用量,有短信,语音和流量的使用 |
是否三无极低 | 都没有使用,定义一个阈值,语言、流量、短信小于该阈值为极低用户 |
指标也可以理解为独立度量,用于衡量事物发展程度的单位或方法。可以用于值计算及大小比较。
指标 |
---|
市场份额 |
用户份额 |
收入份额 |
用户规模 |
上网用户数 |
新增用户数 |
发展用户数 |
转网用户数 |
流失用户数 |
离网用户数 |
出账用户数 |
净增出账用户 |
用户质量 |
出账率 |
离网率 |
流失率 |
消费能力 |
出账收入 |
户均出账收入 |
业务使用 |
计费时长 |
使用流量 |
户均计费时长 |
户均使用流量 |
3.用户信息实例
二、数据分析一般流程
1.为什么做数据分析
2.数据分析一般流程
三、分析方法及图表建议
1.常用统计分析方法
按照最初的需求分析与问题分解情况,逐一用数据解决问题。
常用分析方法:趋势分析、结构分析、对比分析、相关分析…
2.数据可视化图表建议
3.常用统计分析工具
EXCEL, SPSS, SAS, R, MATLAB, PYTHON等
EXCEL需要掌握的技能:
四、数据可视化实例
1.方法实例-趋势分析
2.方法实例-结构分析
3.方法实例-对比分析
4.方法实例-关系-单因素频数分析法
5.方法实例-关系-列联表分析法
列联表:同时描述两个或两个以上维度的联合分布的统计技术。
要求维度必须是离散变量,否则要进行离散化。
6.方法实例-趋势与对比
注意量纲
7.方法实例-结构与对比
8.方法实例-趋势、结构与对比
9.图表变化-核心是图变化,突出中心
五、用EXCEL进行数据可视化(3个实例)
1.透视表、条件格式–用户迁徙对流失影响
漫游通话占比可以反应用户位置发生了变化。
指标是流失率。
数据透视表:
改变条件格式:
突出重点:
2.三维地图、十一热门城市人口热力变化
人口热力图:
选择位置,值,时间。
筛选:
插入二维数表:
3.图表变化、饼图-购物网站流量占比排名
饼图:
进行美化:将数据修改为下图