对业务新增用户收集入库的行为,需要开发。
首先第一个,小问题。
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqk4vnpfgj30z405n3z8.jpg)
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqk4vmxhaj309805y0sm.jpg)
![](https://wx3.sinaimg.cn/large/005A3Hwygy1fgqk4vqq9wj307302qwea.jpg)
如所见,报错原因是多了一个;分号,导致了我们把方式换来换去,到后来我才看到,原来不能加引号啊,但是我把时间变量替换成时间常量却可以编译通过,这是个坑,陨石巨坑。
第二个问题,当我们跑任务时,定时的,但是兄弟部门数据没来,我们用开源HUE去检查hive库该表的数据时间,
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqk9bpy5lj30c404c0sw.jpg)
然后显示分区,
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqka12xkwj30dp09s3ym.jpg)
就对比这两个分区时间数据吧。
![](https://wx2.sinaimg.cn/large/005A3Hwygy1fgqkatbbdej30t3049q33.jpg)
可以很清楚看到,
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqkbkhocaj316z05tmxm.jpg)
18好的数据是19号早上10点47跑完的。接着去看看17号的。
![](https://wx2.sinaimg.cn/large/005A3Hwygy1fgqkcgmd01j313l08et9d.jpg)
17号数据就是18号晚上8点47跑完的,还记我们之前定的是下午两点15,所以这里会导致前台业务系统空数据,也会调度空数据的。
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgqketm69wj30go0l40tc.jpg)
第三个问题,也是纠缠了一天的问题了。
为什么每次我sql没问题,日志没问题,
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqkfe1rngj30st05674l.jpg)
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqkfuzf6uj30nc08it9v.jpg)
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgqkh33o8nj311i0e8dgh.jpg)
为什么会出现这种情况呢?但是库里却明明有数据的。
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgqkka8poaj313p06uwem.jpg)
比较棘手了。
都不好意思截图了,原来是变量别名没有取,导致了表不认识。
好吧,现在可以了,我们的分析都取得了成功,接下来,需要做前端数据库设计。因为是下载和销量双重设计,我们从前端数据库也整两张表吧,在接口代码里面改就可以了。
我靠时间来到了快下班的时间了,
要个增加表的权限,要了一圈,。。。要了3个小时。。。。
太影响效率了。。。呜呜呜
然后接着开发,我们表创建好了之后,
![](https://wx2.sinaimg.cn/large/005A3Hwygy1fgqnk1nuftj30s6022weg.jpg)
接下来的事情就坑了:他给我创建的用户,尼玛,
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgqnuqfyj2j30cs01fmx0.jpg)
居然不可以insert数据,我曹!
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqnwip8bsj30v701n74b.jpg)
到这里还有一个坑。
数据现在18号的有两条,
![](https://wx2.sinaimg.cn/large/005A3Hwygy1fgqny6m666j30ap05ljrb.jpg)
因为只是数据字典,所以没有设置id,只要保证数据不重复就行了,即使重复了,也可以sql找到重复记录。所以,如果我们id匹配维度没有配齐的话,比方说。
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgqnxmfrjcj30gh04ymx6.jpg)
跑一边看一下,
![](https://wx3.sinaimg.cn/large/005A3Hwygy1fgqnzvhffjj304b02tmwx.jpg)
只有一条记录了,因为kettle不知道更新的维度。所以,写全了这里。
其实关于开发这个调度,由于是第一次这么从头开发到尾,整合,所以吧,也遇到了不少坑,那些小坑都倒腾倒腾也就过了,就不记了,遇到了那在记吧。
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgqpozd42fj308g02ajr9.jpg)
接下来,我们要做初始数据。向下载表、销量表里插入初始数据,partition为当天把。
初始数据插入好了,需要些python脚本了,也就是最简单的脚本形式:
![](https://wx3.sinaimg.cn/large/005A3Hwygy1fgrgwh28pjj31a80nd411.jpg)
然后传到服务器上,改权限:
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgrgx4y3jzj30b4065t8l.jpg)
再然后nohup,出现问题,没有东西出来,看一下目录。
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgrhozg8lrj30l2029dfv.jpg)
然后执行python XXXx.py
![](https://wx3.sinaimg.cn/large/005A3Hwygy1fgrhpjmo71j30i902bq30.jpg)
原来是因为导包,导入类引用没找到,那这里因为不在一个目录下面,所以需要去网上现学。这到没啥问题,干这行就得习惯无时无刻都要遇到阻碍,我们网上查阅资料添加import即可
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgri4fo0moj30h005xwf3.jpg)
到这里就启动了,等待邮件,要发不久的。等吧。
吧唧打脸了,
![](https://wx2.sinaimg.cn/large/005A3Hwygy1fgriiegkcyj315x056q3a.jpg)
又报错了,好尴尬啊,我们去kitchen里面测试吧。还好前两天写了这么多文档,现在解决问题起来,不用重新踏坑了,直接查文档,只可惜微博只让保存10篇,超过了就不行了,所以我把博客文档迁到了csdn,嘿嘿,没有限制了。其实自己搭建博客网站也是可以的,200,300一年吧,整个域名,搭建一个自己的博客网站。都很想搞一搞呀。扯远了,继续来吧,
pwd看一下目录
![](https://wx3.sinaimg.cn/large/005A3Hwygy1fgrio2ftgrj30dk01rmx1.jpg)
然后
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgripx7cx8j30qk04ajrw.jpg)
是老问题了。还记得吗,是因为我们没有切换hive用户导致的,
su hive
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgriupxa0dj30pp09575v.jpg)
完美吗?好了,这篇就先到这里吧,关于springBoot怎么开发,以前的文章也都写过了,也比较简单。
我们回头把那个root启动的进程杀死
![](https://wx1.sinaimg.cn/large/005A3Hwygy1fgrizqspj3j30ik030jrl.jpg)
nohup python freemeos_newadd_customer.py >freemeos_newadd_customer_log.log 2>&1 &
![](https://wx4.sinaimg.cn/large/005A3Hwygy1fgrkfqwhnkj30hb02yt8t.jpg)
搞定了。
其实,打算把那个短信的mapreduce拿出来说一说的,但是似乎没时间了,二期需求来了。现在市场的需要重新做,还要搭建PHP运行环境去做一些开发。。。也一直有打算把以前的三个javaWeb开发项目拿出来说一说,说说框架、开发的,也打算把Kafka搭建一下,把思想说一说,拿出来分享的,慢慢来吧,技术的道路需要永无止境的探索。
![](https://wx3.sinaimg.cn/large/005A3Hwygy1fgrkkbk50qj310p0my1kx.jpg)