数据分析基本步骤:明确问题-理解数据-数据清洗-数据分析或构建模型-数据可视化
(一)明确问题
只有先知道自己需要解决什么问题,后续的数据分析才有意义;理解自己收集来的数据有什么含义,分别代表什么,这有利于后续分析数据背后的意义。
(二)理解数据-excel操作
自动换行:多行显示超长文本,以便看到单元格的所有内容。
显示单元格格式:任意单元格上单击鼠标右键,点击“设置单元格格式”,会弹出窗口展示目前所在列的单元格格式。常见的单元格格式有三种:字符串(汉字或字母)、数值、逻辑(true or false)。要注意:字符串不能用于计算,即便其单元格内显示为数字,也不能用于计算;在默认情况下,字符串为左对齐,数值为右对齐。
(三)数据清洗(花费的时间占到数据分析的时间的70%)
步骤:选择子集-列名重命名-删除重复值-缺失值处理-一致化处理-数据排序-异常值处理
1.选择子集:选择需要的列作为分析的对象,其他将其隐藏。(在列号上鼠标右键弹出菜单栏,选择隐藏)。注意:尽量不要删除数据,以防以后还要使用。(选中所有单元格,在开始选项卡中0点击格式栏,选择取消隐藏恢复隐藏的数据)
2.列名重命名:双击列名所在单元格便可修改名字。
3.删除重复值