自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BabyFish13

技术、业务、生活、人生......

  • 博客(12)
  • 资源 (6)
  • 收藏
  • 关注

原创 Python将Hive汇总数据装载到Mysql

0、Hive里的临时表预计算此部分只是将功能在Hive里实现了,将结果存放在Hive表里;与后面的Python代码程序无关联性。--每个游戏各个房间按平均观看时长(观看总时长/房间内的总观看独立UID)前100名统计,以天为统计粒度drop table if exists xx_view_time_rank_byidentifier;create table xx_view_time_

2017-03-29 10:59:05 1553

原创 Python计算支付留存信息示例

1、目标表结构准备1.1、Hive库目标表hive> show create table xx_paynewuserflag_bymonth;OKCREATE TABLE `xx_paynewuserflag_bymonth`( `uid` string, `isnew_flag` int)PARTITIONED BY ( `pt_month` string)ROW

2017-03-24 17:08:37 1058

原创 Python读写配置文件

一、命令选项说明1) 基本的读取配置文件-read(filename) 直接读取ini文件内容-sections() 得到所有的section,并以列表的形式返回-options(section) 得到该section的所有option-items(section) 得到该section的所有键值对-get(section,option) 得到section中option的

2017-03-22 14:41:29 4136 1

原创 Python自动化拉取Mysql数据并装载到Hive

Mysql的数据表分为普通的表及以键值与256取模分表两种形式;流程顺序是先根据Mysql表结构进行Hive库上的建表,然后从Mysql下载到OS上,最后将数据装载到Hive库中。目前,暂不考虑数据的增量更新;主要考虑目前的数据环境较乱,可以较方便的将数据拉取到大数据平台,然后进行相关的计算。程序调用有并行和串行两种方式,是否用并行调度的那个脚本,取决于服务器的磁盘空间大小及源Mysql库

2017-03-21 17:41:02 1930

原创 Python从阿里云Oss拉数据写入Hive表并进行相关处理

数据的流向是:先从Oss拉取原始日志文件数据,根据Hive分区表建表规范放在HDFS上;然后将数据根据不同的过滤条件分别插入到对应的其他中间表;由于空间有限,原始数据转移处理好之后,立马删除从Oss上拉取下来的日志数据;之后,再分别对各中间表数据利用Hive正则进行切分和提取,并根据需求进行汇总统计及tableau展现。1、Hive目标库建表drop table if exists xx_

2017-03-20 12:26:58 1617

原创 Hadoop任务查看管理相关

1.查看 Job 信息:hadoop job -list 2.杀掉 Job: hadoop  job –kill  job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir 5.打印map和reduce完成百分比

2017-03-17 19:40:33 5491

原创 HDFS的常用操作

一、HDFS文件的权限与Linux文件权限类似r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容。如果Linux系统用户hdp使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是hdp。HDFS的权限目的:阻止好人错错事,而不是阻止坏人做坏事;HDFS相信,你告诉我你是谁,我就认为你是谁。二、HD

2017-03-17 14:20:23 1805

原创 Hadoop回收站机制

1、简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash,回收站里的文件可以快速恢复。可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。2、回收站功能启用Hadoop的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启。修改core-site.xml,增

2017-03-17 12:10:44 4153

原创 Python字符串格式化

1、格式化操作符(%)%"是Python风格的字符串格式化操作符,非常类似C语言里的printf()函数的字符串格式化(C语言中也是使用%)。%c :--> 转换成字符(ASCII 码值,或者长度为一的字符串)%r :--> 优先用repr()函数进行字符串转换%s :--> 优先用str()函数进行字符串转换%d / %i :--> 转成有符号十进制数%u :--> 转成

2017-03-17 11:06:01 609

原创 通过Shell数组传参控制Sql脚本串并行调度一例

一、目录环境[hadoop@emr-worker-9 UserPortrait]$ pwd/home/hadoop/nisj/UserPortrait[hadoop@emr-worker-9 UserPortrait]$ lltotal 616-rw-r--r-- 1 hadoop hadoop 2516 Mar 7 18:21 indexCalc-barrage-byUidOn

2017-03-13 10:19:11 1078

原创 Python访问Mysql分表数据的方法示例

1、源表、目标表结构show create table user_profile_252;CREATE TABLE `user_profile_252` ( `uid` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '用户ID', `nickname` varchar(45) CHARACTER SET utf8 NOT NULL COMMEN

2017-03-07 11:54:55 1306 2

原创 Linux下模拟多线程的并发shell脚本写法

一个在Linux下模拟多线程的并发的方法,使用这个方法可以同时批量在定义数量的服务器上执行相关命令,比起普通for/while循环只能顺序一条一条执行的效率高非常多。1、不使用多线程的情况/Users/nisj/PycharmProjects/BiDataProc/UserPortrait/user_portrait_view_singleThread.sh#!/usr/bin/env

2017-03-03 16:39:46 4828

证券期货业数据模型3-证券公司逻辑模型

证券期货业数据模型3-证券公司逻辑模型

2022-02-15

有赞数据仓库元数据系统的演进(有赞Data沙龙).pdf

有赞数据仓库元数据系统的演进

2021-01-18

有赞大数开发平台剖析

有赞大数开发平台剖析

2021-01-18

DM数据仓库建模

数据仓库建模的有关说明 详细的文档及解读的ppt

2019-03-22

面试问答65例.pdf

面试经验的总结和参考,同时也是思想认识、价值观、工作态度方面的一本好教材。

2018-01-31

NCR逻辑模型设计概览

逻辑模型设计 方法论;一些数据仓库建模时的参考,方法等。主要用在数据仓库体系规划、架构设计方面的参考。

2018-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除