数据可视化实例1-美国议会公费开支查询-Power Query/Power BI
2020/04/24 更新:
期望实现的可视化功能
1 按时间(季度、财年、开始/截至时间)查询;
2 按议会办公室名称查询;
3 按供货商查询;
4 按花费用途查询;
5 为各类查询提供图表。
期望实现的数据报表功能
1 提供各类查询的汇总;
2 提供每部分的百分比;
3 提供每部分同比增长率。
1 数据清洗 Data Cleaning
使用的数据处理软件:Power Query
数据特点分析:
1 数据量较大,每个EXCEL文件最少含有1万行以上的数据
2 数据内容填写格式不统一(主要发生在:供货商信息)
3 单一单元格内包含内容过多,需提取需要的信息
4 EXCEL列顺序不同一,存在信息填错位置的问题
2020/04/25 更新:
1 处理供货商信息:只提取供货商名称(文本)
数据示例:
1 信息代码+供货商名称
07???01 P2 OPR0900726A STRATTON DESIGN SOURCE, INC
2 信息代码+供货商名称
08???25 P2 FSS41373 COMMERCIAL CARPETS OF AMERICA
3 只有供货商名称
LEVISON, LARA K
4 只有信息代码,没有供货商名称
09???28 S5 DY090900011
分析:信息代码唯一,1与2的信息代码长度不同,3可以直接提取内容,4没有供货商名称
思路:分组后,按位置截取所需信息
步骤:第一步,将3与(1,2,4)分开。添加“条件列”,将开头不是数字的,输出。得到纯文字Char1列和混合数字与文本的Mix列
第二步,不断使用:“修整Mix列,提取分隔符(空格)后面的内容”的方法,最后得到纯文字Char2列.
第三步,合并Char1和Char2 。
第四步,将空白的供货商名称(由4得到)替换为N/A。
第五步,得到完整的供货商名称列。