摸鱼了几天。。直到大家学习进度都突飞猛进才开始有危机感〒▽〒不行这次不能鸽
一般数据分析流程如下
![93f3c5803a4671fd03ffb686cc50636a.png](https://i-blog.csdnimg.cn/blog_migrate/0331de81832cacb3016ed31ef9f33565.jpeg)
1.明确问题
问题需要足够清晰才可以进行分析
2.理解数据
- 采集数据
- 了解数据集信息
excel主要是3种数据类型:字符串(默认左对齐) 数值(默认右对齐) 和逻辑(True False)可以再单元格右键-设置单元格查看
3.数据清洗
![fecee57f6f254ba5ad69ff1242dcfe3a.png](https://i-blog.csdnimg.cn/blog_migrate/77063c0079f7041bbc2775ac475099d2.jpeg)
1.选出跟问题相关的子集内容 右键隐藏不需要用到的行和列方便查看 开始-格式-可见性栏目可以取消隐藏
2.列名改成易理解的名字,然后通过开始-自动换行并且将列宽改为15来显示全部单元格内容
3.全选表格-数据-删除重复项 来去重(记得保存)
4.对比不同列的计数发现有缺失值,全选列-开始-查找和选择-空值来查看内容
怎么处理缺失值呢?
- 人工手动补全(适合缺失值比较少)ctrl+enter可以一次性输入补全所有缺失值
- 删除缺失值
- 统计模型补全缺失值
- 用平均值代替缺失值
5.把标准或者命名不同的数据进行一致化处理,例如把含有多个内容的列进行分列处理:数据-分列-设定好分隔符就好啦,这个操作或覆盖这个列右边的内容,所以注意先复制一份到表格最右
使用函数求平均值:选中单元格-公式-插入函数-使用average函数即可,双击单元格右下角可以应用到一整列
![d9b81fc291e654dfd6ffbeacf61e1725.png](https://i-blog.csdnimg.cn/blog_migrate/9f721f97d200ffd2e758086ad9236407.jpeg)
使用数据-筛选来查找数据 开始-查找与选择-替换来替换数据
有时候会遇到字符串形式的数字无法进行计算,选择目标列右侧-插入-复制目标列-在插入列右键选择性粘贴-数值-点击数据左上角小三角-分隔符号即可
6.使用开始-排序与筛选来进行排序
这里可以运用透视表来更直观的了解函数,在开始-数据透视表来新建透视表
![012bd364fea70acf64b37e0314c1b8e7.png](https://i-blog.csdnimg.cn/blog_migrate/b34c6b8aeb7bf3efe4eadce8867d70c0.jpeg)
用行标签-其他排序选项来排序
7.发现了和内容无关的数据(异常值)怎么办呢?可以新建一列,利用find函数定位数据位置,count函数来判定是否异常,if函数输出判定结果。用筛选选出正常值并且复制到新建的excel表中就是数据清洗的结果啦(大功告成!!!)
4.数据分析或者构建模型
先从基础的描述统计分析开始...可以使用透视表进行计数,在行标签来排序。
右键菜单可以更改值的显示模式(例如百分比)来更直观的表示出来
在文件-选项-加载项-转到excel加载项来使用数据分析加载宏,之后在数据-数据分析-描述统计里面就可以运用之前学到的描述统计学来输出相关分析啦
5.数据可视化
excel数据可视化基础
一些补充内容
- 不同日期格式的一致化:数据-分列-列数据格式设置为日期,并在单元格格式-自定义里设置yyyy/m/d
- 透视表内按月,周等汇总日期:日期右键-创建组或组合即可。按周的话需要把步长设置成日并且终止于周日。
- 透视表值右键-值字段设置可以设置汇总数据类型
- 多表查询VLOOKUP(找什么,在哪找,第几列,准确找还是近似找)
![1f7bce29998a95614b1c09c00a3fdbd0.png](https://i-blog.csdnimg.cn/blog_migrate/29754d0954b2a9fedff32308f719c061.jpeg)
VLOOKUP找到有多个值满足条件时,会仅仅显示第一个值。这需要用辅助列作为查找条件,使得对应的两个表的关联项为唯一值。
5.绝对引用,相对引用,混合引用:需要锁定哪些内容就使用$进行锁定,F4切换引用格式
呼。。。我这种学渣来说整理的头都大了,但是不能这么快就放弃了!!接下来去分析母婴数据啦