2017年03月_BabyFish13

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Python将Hive汇总数据装载到Mysql

0、Hive里的临时表预计算此部分只是将功能在Hive里实现了，将结果存放在Hive表里;与后面的Python代码程序无关联性。--每个游戏各个房间按平均观看时长（观看总时长/房间内的总观看独立UID）前100名统计,以天为统计粒度drop table if exists xx_view_time_rank_byidentifier;create table xx_view_time_

2017-03-29 10:59:05 1553

原创 Python计算支付留存信息示例

1、目标表结构准备1.1、Hive库目标表hive> show create table xx_paynewuserflag_bymonth;OKCREATE TABLE `xx_paynewuserflag_bymonth`( `uid` string, `isnew_flag` int)PARTITIONED BY ( `pt_month` string)ROW

2017-03-24 17:08:37 1058

原创 Python读写配置文件

一、命令选项说明1) 基本的读取配置文件-read(filename) 直接读取ini文件内容-sections() 得到所有的section，并以列表的形式返回-options(section) 得到该section的所有option-items(section) 得到该section的所有键值对-get(section,option) 得到section中option的

2017-03-22 14:41:29 4136 1

原创 Python自动化拉取Mysql数据并装载到Hive

Mysql的数据表分为普通的表及以键值与256取模分表两种形式；流程顺序是先根据Mysql表结构进行Hive库上的建表，然后从Mysql下载到OS上，最后将数据装载到Hive库中。目前，暂不考虑数据的增量更新；主要考虑目前的数据环境较乱，可以较方便的将数据拉取到大数据平台，然后进行相关的计算。程序调用有并行和串行两种方式，是否用并行调度的那个脚本，取决于服务器的磁盘空间大小及源Mysql库

2017-03-21 17:41:02 1930

原创 Python从阿里云Oss拉数据写入Hive表并进行相关处理

数据的流向是：先从Oss拉取原始日志文件数据，根据Hive分区表建表规范放在HDFS上；然后将数据根据不同的过滤条件分别插入到对应的其他中间表；由于空间有限，原始数据转移处理好之后，立马删除从Oss上拉取下来的日志数据；之后，再分别对各中间表数据利用Hive正则进行切分和提取，并根据需求进行汇总统计及tableau展现。1、Hive目标库建表drop table if exists xx_

2017-03-20 12:26:58 1617

原创 Hadoop任务查看管理相关

1.查看 Job 信息：hadoop job -list 2.杀掉 Job： hadoop job –kill job_id3.指定路径下查看历史日志汇总：hadoop job -history output-dir 4.作业的更多细节： hadoop job -history all output-dir 5.打印map和reduce完成百分比

2017-03-17 19:40:33 5491

原创 HDFS的常用操作

一、HDFS文件的权限与Linux文件权限类似r: read; w:write; x:execute，权限x对于文件忽略，对于文件夹表示是否允许访问其内容。如果Linux系统用户hdp使用hadoop命令创建一个文件，那么这个文件在HDFS中owner就是hdp。HDFS的权限目的：阻止好人错错事，而不是阻止坏人做坏事;HDFS相信，你告诉我你是谁，我就认为你是谁。二、HD

2017-03-17 14:20:23 1805

原创 Hadoop回收站机制

1、简介在HDFS里，删除文件时，不会真正的删除，其实是放入回收站/trash，回收站里的文件可以快速恢复。可以设置一个时间阀值，当回收站里文件的存放时间超过这个阀值或是回收站被清空时，文件才会被彻底删除，并且释放占用的数据块。2、回收站功能启用Hadoop的回收站trash功能默认是关闭的，所以需要在core-site.xml中手动开启。修改core-site.xml，增

2017-03-17 12:10:44 4153

原创 Python字符串格式化

1、格式化操作符（%）%"是Python风格的字符串格式化操作符，非常类似C语言里的printf()函数的字符串格式化（C语言中也是使用%）。%c ：--> 转换成字符（ASCII 码值，或者长度为一的字符串）%r ：--> 优先用repr()函数进行字符串转换%s ：--> 优先用str()函数进行字符串转换%d / %i ：--> 转成有符号十进制数%u ：--> 转成

2017-03-17 11:06:01 609

原创通过Shell数组传参控制Sql脚本串并行调度一例

一、目录环境[hadoop@emr-worker-9 UserPortrait]$ pwd/home/hadoop/nisj/UserPortrait[hadoop@emr-worker-9 UserPortrait]$ lltotal 616-rw-r--r-- 1 hadoop hadoop 2516 Mar 7 18:21 indexCalc-barrage-byUidOn

2017-03-13 10:19:11 1078

原创 Python访问Mysql分表数据的方法示例

1、源表、目标表结构show create table user_profile_252;CREATE TABLE `user_profile_252` ( `uid` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '用户ID', `nickname` varchar(45) CHARACTER SET utf8 NOT NULL COMMEN

2017-03-07 11:54:55 1306 2

原创 Linux下模拟多线程的并发shell脚本写法

一个在Linux下模拟多线程的并发的方法，使用这个方法可以同时批量在定义数量的服务器上执行相关命令，比起普通for/while循环只能顺序一条一条执行的效率高非常多。1、不使用多线程的情况/Users/nisj/PycharmProjects/BiDataProc/UserPortrait/user_portrait_view_singleThread.sh#!/usr/bin/env

2017-03-03 16:39:46 4828