数据分析全流程-CSDN博客

本文链接：https://blog.csdn.net/QuartusII7/article/details/121658130

课件：链接：https://pan.baidu.com/s/1RgRm0d24okUkWudKEQ7Q2g
提取码：gntv

数据分析的分类

在统计学邻域，数据分为三类：

描述性统计分析	对一组数据的各种基本特征进行分析，便于描述测量样本的各种特征，常用的方法包括对比分析、平均分析、交叉分析等，是复杂统计的基础
探索性数据分析	利用一定的分析方法返现数据中的隐藏特征规律，常用的分析方法包括相关分析、因子分析、回归分析、预测分析等，是一种高阶数据分析
验证性数据分析	利用分析方法验证假设的真伪准确性，比如顾客忠诚度，假设需要用购买频率、消费比例等指标来衡量，那么验证数据分析就是检验购买频率、消费比例等是否能反映出来

数据分析流程

确认分析目的
明确分析思路
数据采集
数据输入
数据整理
数据处理
数据分析
数据呈现
数据分析报告

数据采集

数据采集方式

公开出版物

中国统计年鉴、中国社会统计年鉴、中国人口统计年鉴、世界经济年鉴、世界发展报告

互联网

国家地方统计局网站、行业组织网站、政府机构网站、门户网站、企业网站、上市公司财报

数据库

市场调查

线下调查：电话、街头、座谈、轨迹
线上调查：线上调查问卷

数据分析职位

数据分析师需要懂管理、业务、心理学，与有关部门结合

自定义单元格格式

原始数据	单元格显示数据	自定义格式代码
123	一百二十三	[DBNum1]
123	查佰贰拾叁	[DBNum2]
123	123.00	#0. 00
123	123.0	#0.0
12. 23	12. 23%	0.00%
123456	1, 235	#,##0
1234567890	人民币1, 235百万	"人民币“#,##0,“百万”
河南	中国移动河南分公司	“中国移动“@"分公司”
91	优秀	[>90]“优秀”;[>80]"及格”;"不及格”
59	59	[>90][红色]0;[>80][绿色]0;[黄色]0

自定义单元格与TEXT函数使用：text(value,format_text)
value:数字值
format_text：设置所要的文本格式
举例：=text(b2,"[>=90] 优秀;[>=60] 及格;差")

数据分列

1.LENB 与LEN 函数
当姓名和电话号码都没有规律时，我们可以使用LENB 和LEN 函数，如图所示。
姓名公式=LEFT(A1,LENB(A1)-LEN(A1))，其中LENB(A1)代表A1单元格的字节总数
( 15)，而LEN(A1)代表A1单元格的字符总数(12)。一个汉字是一个字符但是有两个字节，
所以LENB(A1)-LEN(A1)=15-12=3代表A1单元格的姓名汉字个数为3个。
电话号码公式=SUBSTiTute(A1,B1,)，即把A1单元格中 B1的部分替换为空。

2.MIDB、SEARCHB、LENB函数
当姓名和电话号码没有规律，且姓名和电话号码中间还有不确定的其他字符时，就需要用MIDB+SEARCHB+LENB组合函数来实现，如图
电话号码公式= MIDB(A1,SEARCHB("?",A1),LENB(A1))
利用SEARCHB函数配合通配符"?"查找字符串中第1个半角字符的位置编号，再用MIDB函数提取电话号码。其中，姓名和电话号码中如果出现了全角的“:”，则也不会影响计算结果。

3.MIDB、SEARCHB、LENB这些带B的函数和MID、SEARCH、LEN这些不带B的函数的区别在哪里呢?
MIDB、 SEARCHB、 LENB函数会将每个双字节字符按2计数，而MID、SEARCH、 LEN函数会将每个字符按1计数，如下图所示。
同样将“张子轩”的“子”提取出来，MIDB函数需要从第3个字符开始提取2位，而MID函数只需从第2个字符开始提取1位，因为张子轩的字节数(LENB)是6字节，而字符数(LEN)是3个。带B与不带B结合可以实现全角字符与半角字符的分离。

数据提取

1.一列变多列
有一道多选题，共有A、B、C、 D、E、F、G、H这8个答案，由于没有采用二分法或
多重分类法录入，录入结果如左图中的A列所示，给数据处理和分析带来了不便。现需
进行数据整理，将A列转换为A、B、C、D、E、F、 G、H分别对应的8列，如果A列中出
现了答案，则在对应答案下方显示“1”;如果没有出现，则显示“0”。整理后的结果与二分
法录入的结果一致，如右图的C~J列所示。

公式=IFERROR(IF(SEARCH(C$2,$A3)>0,"1",""),"0")
首先search函数：指定字符串在原始字符串中首次出现的位置：search(要查找的文本，在哪里查找，从第几个字符开始查找（可忽略））
if函数判断，有输出1，没有为错误值
iferror函数将错误值转换为“0”：iferror(被检查的值，被检查的值为错误时返回值)

2.提取不规则数据最后一部分内容

index语法：https://www.wps.cn/learning/course/detail/id/116.html?chan=pc_win_function

3.提取部分内容，保留部分内容
现有一列数据，如果有箭头，则提取箭头后面的内容(箭头前后的字符长度不固定);如果没有箭头，则保留原内容; 如果单元格为空白，则保留空白，如图所示。
第一步，利用C2=SEARCH(“→”,A2)查找“→”为单元格的第几个字符。
第二步，利用D2=MID(A2,C2+1,9^9)将“→"后面的内容提取出来。
第三步，使用IFERROR函数将错误值转换为A列对应的单元格。
公式: =IFERROR(MID(A2,SEARCH(“→”,A2)+1,9^9),A2)

语法
MID(text,start_num,num_chars)
Text 是包含要提取字符的文本字符串。
Start_num 是文本中要提取的第一个字符的位置。文本中第一个字符的 start_num 为 1，以此类推。
Num_chars 指定希望 MID 从文本中返回字符的个数。
说明
￭如果 start_num 大于文本长度，则 MID 返回空文本 ()。
￭如果 start_num 小于文本长度，但 start_num 加上 num_chars 超过了文本的长度，则 MID 只返回至多直到文本末尾的字符。
￭如果 start_num 小于 1，则 MID 返回错误值 #VALUE!。
￭如果 num_chars 是负数，则 MID 返回错误值 #VALUE!。

数据合并

快速填充：将c2:c5单元格区域的单元格格式设置为文本格式，在c2单元格中输入016545689564，单机c3单元格，按住CTRL+E组合键，建议接受完成快速填充
快速填充的其他场景
数组特征合并数据

公式=E14:E19&F14:F19,按下shift+ctrl+enter组合键

符合条件的合并为一个单元格

符合条件单元格对应内容合并
现有一组学员成绩，需要将每个学员成绩为空白的科目统计出来，并用“、”隔开。首先，根据要求，利用IF函数，如果单元格为空格，则输出结果为科目名称十“、”;如果单元格不为空格，则输出结果为空值，所有F函数计算出来的结果用CONCATENATE函数合并。
在K2单元格中输入公式“= CONCATENATE（IF(B2=“”,B$1&"、“iFIC2=”.C$1&、",IF(D2=",D$1&’、"),IF(E2="),E$1&"、",IF(F2=“F$1&、”,F(G2=",G$1&"、”"),
IF(H2=",H$1&’、”".IF(12=“1$1&、”).IF(U2=“J$1&、””，。完成缺考科目的合并。
然后left(k2,len(k2)-1)

1.下拉菜单：
主要说二级下拉菜单：
步骤：（1）选择I1:I2单元格区域定义名称“上网”，选择i3:i10单元格区域-右键-【定义名称】-输入“不上网”（2）选择c2:c10，【数据验证】(wps中数据-有效性)-【允许】-【序列】，在【来源】数据框中输入公式=indirect($a2)，确定.。选择D2:D10,【数据验证】-【允许】-【序列】在【来源】数据框中输入公式=indirect($B2)，确定。（3）C、D列可以根据A\B列的结果选择
2.身份证号：
选择区域-【数据】-【数据验证】-【验证条件】-【自定义】，在【公式】数值中输入公式=or(len(A2)=15,len(A2)=18),确定。
3.重复输入限制：
选择区域-【数据】-【数据验证】-【验证条件】-【自定