数据仓库可视化项目排坑贴

数据仓库可视化项目初步

基本工具:anaconda、MySQL、配置好hive环境得远程服务器、powerbi(ODBC)
基本过程:我们已经有30个csv的数据集和一个建表格式的.sql文件,目的是从文件中提取建库及导入数据的语句。
基本知识:https://blog.csdn.net/qq_26442553/article/details/78805724 做hive开发要了解的数据仓库知识
https://www.cnblogs.com/ada-openmind/p/5554175.html 零售业态相关指标(一)
https://blog.csdn.net/capsicum29/article/details/76358899 powerbi内部部署安装指导(制作报表)
基本常识:如果hive连接不上,就root连接后执行语句nohup hiveserver2 >/dev/null 2>&1 &就像这样:
在这里插入图片描述

1. 怎么在hive上建库:

首先要理解脚本的用法,博主一开始接触脚本不习惯而且畏惧心理很重(可能是因为脚本的界面和小时候电脑死机或者病毒的界面特别像,出现一些自己无法控制的事情,为此十分感激微软桌面的开发者让我这种心理扭曲的人可以把脚本放进黑盒),但搞计算机怎么也绕不开脚本这一关,一定要找人帮助你理解他们的运作原理或者自行百度。

#####################Linux 脚本进程######################################################
第一步,进入Linux远程服务器(含hive及Hadoop环境)后,找到你上传的文件和文件夹(这一步可以在Xftp上互传和查看目录,强推软件非常好用),进入文件夹位置(cd /root/yan) 后执行python正则化文件,python extract_table_name_structure.py。

注: 我们做python文件可直接生成建表和导入数值语句,这在数据库多而且数据量大的情况下是一个非常重要的批量化步骤

python文件书写:
类似于爬虫,将建表格式的.sql文件中建表和导数的语句用正则化提取出来并储存成新.sql文件。
以前博主使用的工具是pycharm,最讨厌得就是配置环境,如果有个新电脑倒还好,没有太多安装软件冲突的机会,但接触了数据分析之后发现大部分python都是用jupyter notebook写的,因为可以一段一段编译运行,可视化过程更易调错。

第二步,输入hive进入数据仓库,show databases; 查看有哪些数据库,use XXX; 在数据库XXX下操作,show tables;看XXX库里有哪些表,此时应该是没有表的。我们首先创建自己的数据库 create database yan;后执行我们上一步生成的sql文件: source /root/yan/insert.sql; 就可以将表建好。quit;即可退出数据仓库。

坑1:用notebook打开文件会出现加载不上去的问题,解决方法有三:一,将IE浏览器更换为火狐或谷歌,参考链接https://blog.csdn.net/foxjx/article/details/79112426(博主就是这个问题并利用此链接解决);二,如你的
jupyter 就运行在本机,那么无需 upload,直接在本机上打开就行了;三,你问我怎么打开其他分区?打开
powershell,然后jupyter notebook E:(后两个搬运于知乎)。

坑2:在按 | 分割原始数据csv的时候一直报错Error tokenizing data,后来才发现是因为csv的编码为utf-16的原因,能读出来的也都是NAN,所以应在to_csv方法里加上utf编码限制,如:
在这里插入图片描述

坑3:配置Hadoop。本人并没有配置远程服务器的数仓环境,但小伙伴说特别复杂,故特地留一区域。其他人的环境配置排坑贴: https://blog.csdn.net/qq_33440781/article/details/86406942

2.数据探索

接下来要做的是罗列分析维度以及指标。首先我们可以通过treeDMS来可视化hive数据库:

在这里插入图片描述
终于导入成功了。因为我们需要研究销售的走势,所以我们需要找出与销售有关的一些指标,比如时间、地点、线上线下销售量。这里借鉴了同僚们做的网络图,主外键连接关系可以从上述的TreeSoft界面得到。
在这里插入图片描述
接下来,需要去把指标挑选出来得到新的表,D:\summerInternship\datafrog\yan\getNewData_yan.sql和insertFacttime_yan.sql就是我们需要的sql语句。

3.powerbi画图

这一步止在连接上,数据库就是调不出来==等有时间再来更新。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值