ETL
文章平均质量分 91
大壮vip
博学而笃志,切问而近思。
展开
-
python脚本批量执行shell,使用queue、threading库
python脚本批量执行shell,使用queue、threading库多线程队列再出江湖,搭配执行批量shell的hadoop上传sc操作。然后调试看看效果本篇为编码操作。和我上上家公司一样,多线程爬虫某豆荚的app应用网站,但是此次功能没有那复杂了,就是为了快点搞完。那现在我们开始,引入Queue队列,和thread原创 2017-12-20 17:32:18 · 3304 阅读 · 0 评论 -
python批量提交s3-被搁置
python批量提交s3-被搁置来吧,先来热热身,python跑linux命令玩玩,马上就开始搞hadoop命令了,前路漫漫前路漫漫,但是也不要急,我们继续编写脚本,使其可以自动组装hadoop的目录结构,然后上传,这个我们具体使用多线程+消息队列的方式,还是单线程,跑测试,具体的,我们等一会儿稍晚些时候商量一下,还是说,我先测试一下。原创 2017-12-20 17:34:01 · 852 阅读 · 0 评论 -
工作任务
追查数据源,找到报表产出数据源。首先配置好git之后,我们打开页面的url,分配的是先看产检报告。 移除点击此处添加图片说明文字同时,将数据报表产出的etl部分从git检出,等待查阅代码。 移除点击此处添加图片说明文字这里的git.exe不用理会,因为我们暂时打算使用命令行,后面可以我们使用客户端吧,看个人喜好,喜欢客户端或者命令行原创 2017-12-18 14:05:56 · 361 阅读 · 1 评论 -
python从提供的api中提取数据信息解析json
python从提供的api中提取数据信息解析json准备60TB的数据迁移了,想象都激动迁移到s3上面,具体的组件信息普及,我会在后面提供介绍首先,刚入职,很多信息没有,oa、邮箱、域账号、vpn都没有,这种情况下工作,有点难。纸笔、屏幕都没有给(没有分屏,还在用13寸的屏幕看代码,眼睛都瞎了)废话不吐槽了原创 2017-12-18 16:58:21 · 11798 阅读 · 3 评论