Excel 快捷键
Alt+Enter 换行
Ctrl+Enter 批量填充
F5 / Ctrl+G 定位
Ctrl+shift+↓/↑ 快速选中至空单元格
锁定: $ 快捷键 F4
Excel 函数
求和:sum(范围)
平均:average(范围)
最大:max(范围)
最小:min(范围)
排名:rank(需要排名的数据,范围)
锁定: $ 快捷键 F4
int(数值) 取整
mod(被除数,除数) 取余
逻辑函数
if(条件,真的时候执行,否的时候执行) 判断函数 注意事项(if 最多嵌套7层)
函数之间结果如果是数值的可以用算术运算符,如果是文本的可以用&
iferror(值,错误时侯执行)
And (条件,条件)
Or(条件,条件,条件…)
iseven(数值) 是偶数
isodd(数值) 是奇数
row() 默认单元格行号
row(A1) A1单元格的行号
column() 默认单元格列号
column(A1) A1单元格列号
计数:
count(范围) 计算数值型数据单元格有几个
counta(范围)计算非空单元格
countblank(范围) 计算空单元格个数
countif(范围,条件)单个条件计数
countifs(范围1,条件1,范围2,条件2…)多个条件计数
求和:
sum(范围) 求和
sumif(条件范围,条件,求和范围) 单个条件求和
sumifs(求和范围,条件1范围,条件1,条件2范围,条件2…) 多个条件求和
平均:
average(范围) 平均
averageif(条件范围,条件,平均范围) 单个条件范围
查找函数:
Vlookup(找谁,在哪找,要找的在第几列,是否精确查找(0精确,1模糊))
HLOOKUP(找谁,在哪找,要找的在第几行,是否精确查找(0精确,1模糊))
注:找的这个值一定要在第一列/第一行
index 返回列表或数组中的值,这个值有行号和列号的索引值进行确定
语法:index(范围,行号,列号)
match 元素相应位置
语法:match(找谁,在哪找,怎么找)
日期函数:
now()当前日期与时间
today()今天
year()获取年
month()获取月份
day()获取天数
hour() 小时
minute()分钟
second()秒
weeknum(时间,类型)一年中的第几周
weekday(时间,类型)周几
date(year(时间),month(时间),day(时间)) 获取年月日
datedif 返回俩个日期之间的年/月/日间隔数
datedif(开始时间,结束时间,“y/m/d”)
networkdays 用于返回俩个日期之间的完整工作日数
networkdays(开始时间,结束时间,【在工作日中排除的特定日期】)
yearfrac(开始时间,结束时间,【类型】)
offset 是一个引用函数,表示引用某一个单元格或者区域
语法:offset(相对位置,下移几行,右移几列,高,宽)
indirect 返回文本字符串引用位置
indirect函数的引用的俩种形势
一种加引号,一种不加引号
=indirect(“A1”)----加引号,文本引用——直接获取A1单元格的值
=indirect(A1)------不加引号,地址引用—如果A1单元格是一个地址,那么会继续找他的下一层,如果不是那就直接报错
clean()删除非打印字符
文本函数
text(值,文本类型) 将数值转换为按指定数字格式表示的文本
日期和星期相关的
时间相关的
千分位和小数位数相关的
数值转换相关的
条件格式的
len(文本) 返回文本的字符数
lenb(文本) 返回文本中所有字符的字节数。(一个字节占俩个位置)
left(文本,截取几个) 从左侧第一位开始截取几个字符
right(文本,截取几个) 从右侧第一位开始截取几个字符
mid(文本,从第几位开始截取,截取几个) 从中间开始截取几个文本字符
find(找什么,在哪找,从第几位开始找)
low(文本)大写转小写
upper(文本)小写转大写
proper(文本)首字母大写
rept(需要重复的文本,重复次数)
替换:
replace(要替换字符的文本,开始替换字符的位置,要替换字符的字节数,要用于替换的文本)
substitute(文本,要替换字符的文本,要用于替换的文本,第几次出现的文本)
最后——难点参数可选,如省略则替换所有,如果写1就改变第一个出现的文本
trim(文本) 去掉多余空格
数据透视表注意事项:
快捷键alt+d+p+p
列头不能为空
整个表不能有合并单元格
叠加交互图
叠加交互图步骤
先把各个图做出来—录制宏(随便找个图操作去宏代码得到【ActiveSheet.ChartObjects(“图表 1”)】)—(n4为按钮单元格链接)—运行完后各个按钮指定宏
统计学
数据分析步骤:
明确分析目的和思路—数据收集—数据处理—数据分析—数据展示—报告撰写
统计数据的类型
按收集方法:观测数据,实验数据
按计量尺度:分类数据,顺序数据,数值型数据
按时间状况:截面数据,时间序列数据(只要跟时间有关系画折线图)
观测数据:通过调查或观测而收集到的数据,是在没有对人为控制的条件下得到的有关社会经济现象统计数据几乎都是
实验数据:在实验中控制实验对象而收集到的数据
分类数据:只能归于某一类别的非数字型数据,他是对事物进行分类的结果
分类数据的整理
频数:落在各类别中的函数集个数
比例:某一类别数据个数赞全部数据个数的比值
百分比:将比例乘以100得到的数值
比率:不同类别数据之间的比值
分类数据的图示–看频数画条/柱型图–看占比画饼图
顺序数据:只能归于某一类别的非数字型数据
顺序数据整理(一定要先排序)
累积频数:频数逐级累加恰里得到的频数(份向上累积,向下累积),通过累积频数可以很容易看出某一类以下或以上的频数之和
累积百分比:同上
顺序数据的图示–折线图
数值型数据:可计算的数字
数值型数据的整理
数据分组:将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据(单变量分组,组距分组)
在组距分组中,一个组的最小值称为下限,一个组的最大值称上限
当相邻俩组上下限重叠时,统计分组习惯规定“上限不在内”即a<=x<b
组距=本组上限-本组下限
组中值=(上限+下限)/2
如果全部数据最大值最小值数据相差悬殊,为避免出现空白组或极端值被漏掉,第一组和最后一组采用开口组,其公式如下:
当缺下限时,组中值=本组上限-邻组组距/2
当缺上限时,组中值=本组下限+邻组组距/2
分组数据–直方图–求面积
茎叶图
优点:
从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到
茎叶图中的数据可以随时记录,随时添加,方便记录与表示
缺点:
数据量大的时候比较麻烦,不大直观
未分组数据-箱线图(把数据分成四个等份,。每个等份是25%的数据,箱子越矮说明数据余额集中)
箱线图由一组数据几个特征值绘制而成
六大特征:上边缘(最大值),下边缘(最小值),上四分位数Q3/QU,下四分位数Q1/QL,中位数(Median–也就是Q2/QM),还有一个异常值
上下边缘如果直接用最大最小值的时候必须是排除掉异常值的时候
下四分位:Q1(QL) 确定Q1位置公式=(n+1)/4
上四分位:Q3(QU) 确定Q3位置公式=3*(n+1)/4
(1)整数时取位置的值(2)小数时整数位置的值加(下一个数值减去整数位置的值的差*小数部分)
IQR四分位差=QU-QL或Q3-Q1
上边缘 = QU~QU+1.5IQR 找这个数据范围最大值 没有异常值的情况下其实也可以直接用MAX
下边缘 = QU~QU-1.5IQR 找这个数据范围最小值 没有异常值的情况下其实也可以直接用Min
中位数:Q2(Qm) Q2位置=(n+1)/2 或者直接用函数Median
数值型数据
俩个变量间的关系-散点图
相关系数:correl(第一个区域,第二个区域)
相关系数的经验解释
abs®<0.3 不相关
0.3<abs®<0.5 弱相关
0.3<abs®<0.8 中相关
abs®>0.8 强相关
三个变量间的关系——气泡图
多变量数据——雷达图
总体是包含所研究的全部个体(数据)的集合,默认总体是收集不全的,因为总体太大
组成总体的每个元素称为个体
样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量
正态分布,也成“常态分布”,又名高斯分布
若随机变量服从一个数学期望为μ,方差为σ2的正态分布,记做N(μ,σ2)
数学期望反映随机变量平均取值的大小,又称期望或均值
参数是用来描述总体特征的 统计量是用来描述样本特征的
数据分布的特征可以从三个方面进行测度和描述:
集中趋势:反应各数据向其中心值靠拢或聚集的程度
离散程度:反应各数据呀远离其中心值的趋势
分布的形状:反应各数据分布的偏态和峰态
分类数据-集中离散的度量
集中趋势:找众数,众数就是一组数据中出现次数最多的变量值
函数:Mode,数字的时候可以用
离散程度:异从比率,非众数组的频数占总频数的比例
异众比率Vr(大于70%,众数没有代表性)
mode()众数
var()方差
stdev()标准差
S代表样本标准差
σ代表总体标准差
S/均值=离散=标准差/均值
S^2=方差=样本方差
σ^=方差=总体方差
数据分析方法
三大作用:
现状分析:对比 对比分析,平均分析,综合分析
原因分析:细分 分组分析,交叉分析,漏斗图分析(转化率,流失率),矩阵关联分析,RFM分析(给用户分等级)
预测分析:预测 回归分析,时间序列,决策树,神经网络…
对比分析法:是指将俩个或俩个以上的数据进行比较,分析他们的差异
特点:可以非常直观地看出事物某方面的变化或差距,并且可以准确,量化地表示出这种变化或差距是多少
分类:静态对比,动态对比
常用维度:与目标对比 不同时间对比 同级部门,单位,地区对比 行业内对比 活动效果对比
RFM分析(给客户分等级):
根据美国数据库营销研究所的研究,客户数据库中有3个神奇的要素,这3个要素构成了数据分析最好的指标:
最近一次消费 (Recency) R
消费频率 (Frequency) F
消费金额 (Monetary) M
步骤:
第一步先找出R最近的距离 ,怎么找:
首先添加一列计算一下距离时间: 公式:today()-下单日期
然后从一堆日期中找出用户日期最近的一个:
公式: =MIN(IF(范围=用户ID,距离范围)) 因为是从一堆里面找一个得用数组快捷键 ctrl+shift+enter
第二步找 F =COUNTIF(用户id范围 , 用户id)
第三步找 M =SUMIF(用户ID范围,用户ID,消费金额范围)
第四步求RFM的平均值:
R>平均值,就显示“远”,否者显示 “近”
F>平均 显示 “高”, 否者显示“低"
M>平均就是高, 否者显示“低"
第五步匹配,用vlookup去跟用户等级匹配