1.不同对象间的比较应使用簇状柱形图。
2.漏斗图描述状态阶段的顺序递进关系,属于序列类图表。
3.饼图强调占比,应以百分比形式展现,属于构成类图表。
4.雷达图突出对象间差异程度。
5.散点图可以生成波士顿矩阵效果,波士顿矩阵适用于对商品结构的描述,属于描述类图表。
1 2
3 4
通过相对市场占有率(横向)、销售增长率(纵向)两个因素相互作用,会出现四种不同性质的产品
类型,形成不同的产品发展前景:
①销售增长率和市场占有率“双高”的产品群(明星类产品);
②销售增长率和市场占有率“双低”的产品群(瘦狗类产品);
③销售增长率高、市场占有率低的产品群(问题类产品);
④销售增长率低、市场占有率高的产品群(金牛类产品)。
6.箱型图可以展现一组数据的统计分布结果。
7.折线图可以表现出随时间变化的趋势,属于序列类图表。
8.直方图体现的是数值的分布特征,不能使用业务纬度坐标轴。
9.业务图形决策树将图形分为构成类,对比类,序列类及描述类。
10.电商收入的黄金公式:销售额=流量*转化率*客单价。
11.分类数据缺失时选用众数作为填充数据。
13.卡方检验的结果与分类变量的顺序无关,将任意两行进行互换,卡方值不变。
14.floor(x)表示返回小于x的最大整数值(去掉小数取整),ceiling(x)表示返回大于x的最小整数值(进一取整),round(x,y)表示返回参数x的四舍五入的有y位小数的值(四舍五入),truncate(x,y)表示返回数字x截短为y位小数的结果。
15.在SQL中可以设置表别名和列别名,SQL语句的执⾏顺序是FROM-->-->ON-->JOIN-->WHERE-->GROUPBY-->HAVING-->SELECT-->ORDERBY-->LIMIT,别名是在WHERE⼦句后计算的,所以WHERE⼦句中不能⽤列别名,FROM和JOIN⼦句中可以⽤表别名。
16.汇总结果由维度、度量、汇总规则决定;出度量的表为事实表。
17.OLAP是联机分析处理,是搭建多维数据模型的处理过程;
数据库主要功能是事务处理用的,所以定位是OLTP,联机事务处理。
18.主键的物理意义:表的行标识符;
主键的业务意义:表的业务记录单位。
19.工作表名+!+单元格地址是正确单元格引用方法。
表格结构数据引用的基本单位是单元格。
20.常用的数据分析方法论:
CRISP-DM,SEMMA,AB测试。
21.如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则众数<中位数<平均数。当分布对称时,离差三次方后正负离差可以相互抵消,因而偏度系数的分子等于0,则偏度系数等于0;当分布不对称时,正负离差不能抵消,就形成了正或负的偏度系数。当偏度系数为正值时,表示正离差值较大,可以判断为正偏或右偏;反之,当偏度系数为负值时,表示负离差值较大,可判断为负偏或左偏。
22.数据的概括性度量分集中趋势、离散程度、偏态、峰度的度量。
23.分析分类变量之间的相关性可用:卡方检验、计算列联相关系数;
分析数值型变量:t检验、计算皮尔逊相关技术。
24.为了保证数据的完整性,可以通过四种方式来实现,约束、规则、默认值、触发器。题干说的是“在CREATETABLE语句中实现完整性约束的有”,所以只能从约束性条件选择完整性约束包括:主键约束(PRIMARYKEY)、外键约束(FOREIGNKEY)、唯一约束(UNIQUE)、非空约束(NOTNULL)、检查约束(CHECK)、默认约束(DEFAULT)、自动增长约束(AUTO_INCREMENT)。
25.EDIT模型:探索(Exploration)、诊断(Diagnosis)、指导(Instruction)、工具(Tool)。
26.多个事实表共用某些维度表的连接模式成为星座模式。
展开多层维度是雪花模式。
星型模式是多个维度表共用一个事实表的连接模式。
一个事实表与一个维度表相连,维度表再与其他维度表相连的模式属于雪花模式。
27.HAVING子句中的筛选字段必须是可以出现在分组结果中的字段。
28.BI 报表使用 DW 汇总不同数据源数据作为自己的数据源使用。
DB是BI项目组之外的数据源。
BI 分析的主要特点是多维度下的透视分析。
BI 报表设计的核心内容是明确业务需求涉及到的维度与度量。
29.业务分析报告撰写流程步骤包括:明确报表框架及定位,收集数据,数据处理,数 据分析、图表制作、结论撰写和报告完成。
30.为了满足业务需求,根据分析内容的周期长短、报告提出频次的高低以及报告内容 描述侧重点的不同可以将业务分析报告分为日常通报型报告、周期回顾型报告以及专题通 报型报告三类。
31.使用雷达图的好处在于我们可以用多个不同的业务属性顶点来直观的映射在各个方 向上的差异情况,使用雷达图的时候需要注意的问题有三个,第一个是业务属性值的量纲 问题,做好不同量纲业务顶点的标准化处理;第二个是不同业务属性个数的问题,在使用 习惯上它的顶点数(也就是业务属性个数)最好不要超过八个;第三个是业务属性摆放方 向的问题,最好将同属性的业务顶点放在同一个方向上。
32.进行分析时不知道选择哪个字段开始分析,可以考虑树状结构分析方法;
筛选重点 数据的方法称之为二八分析分析法,又称为帕累托分析;
四象限分析用于数据分类;
同期 群分析主要用于衡量指定群组在某一时间段内的持续性行为差异。
33.业务分析中常用的透视规则有五种,分别是合计规则、计数规则、平均规则、最大
值规则、最小值规则。
34.纵向分析指的是在时间周期下观测指标变化规律的方法;
横向分析主要针对不同维 度项下指标值的差异情况进行描述;
预警分析指的是指标值与对比值进行比较后,用两者 间的差异进行预警;
指标值的常用可视化分析方法不包含差异分析方法。
35.SKU 是商品的最小单位,应精确到最细的具体产品上。
SPU 是商品的品类细分,比大品类细,比具体商品粗。
36.AARRR 分别代表用户获取、用户激活、用户留存、获得收益及推荐传播五个阶段, 最后一个 R 是推荐传播阶段。
37.RFM 模型是重要的客户分类模型,R 代表最近一次消费时间间隔,F 代表消费次数, M 代表消费金额。
38.同环比指标应满足长周期,高汇总的特 点。
39.t 检验之前先要 F 检验,判断方差是否有显著差异。
40.BI 报表侧重业务面的完整描述,分析报告侧重深入分析业务点上的问题,BI 报表是 动态报表,分析报告是静态报告,BI 报表以图表表格为主,分析报告主要以图表文字结合 的形式描述问题,BI 报表基于多源原始数据生成,分析报告参照分析结果进行业务问题解 读。
41.变异系数计算公式为标准差除以均值。
42.箱线图中最顶端和最底端的两条线表示去掉异常值后的最大值和最小值;四分位差 表示的是上下四分位数之间的距离,反映了中间 50%数据的集中程度;中位数越靠近上四 分位数,说明中间 50%的数据中心前半部分越分散。