- 博客(12)
- 资源 (6)
- 收藏
- 关注
原创 Python将Hive汇总数据装载到Mysql
0、Hive里的临时表预计算此部分只是将功能在Hive里实现了,将结果存放在Hive表里;与后面的Python代码程序无关联性。--每个游戏各个房间按平均观看时长(观看总时长/房间内的总观看独立UID)前100名统计,以天为统计粒度drop table if exists xx_view_time_rank_byidentifier;create table xx_view_time_
2017-03-29 10:59:05 1553
原创 Python计算支付留存信息示例
1、目标表结构准备1.1、Hive库目标表hive> show create table xx_paynewuserflag_bymonth;OKCREATE TABLE `xx_paynewuserflag_bymonth`( `uid` string, `isnew_flag` int)PARTITIONED BY ( `pt_month` string)ROW
2017-03-24 17:08:37 1058
原创 Python读写配置文件
一、命令选项说明1) 基本的读取配置文件-read(filename) 直接读取ini文件内容-sections() 得到所有的section,并以列表的形式返回-options(section) 得到该section的所有option-items(section) 得到该section的所有键值对-get(section,option) 得到section中option的
2017-03-22 14:41:29 4136 1
原创 Python自动化拉取Mysql数据并装载到Hive
Mysql的数据表分为普通的表及以键值与256取模分表两种形式;流程顺序是先根据Mysql表结构进行Hive库上的建表,然后从Mysql下载到OS上,最后将数据装载到Hive库中。目前,暂不考虑数据的增量更新;主要考虑目前的数据环境较乱,可以较方便的将数据拉取到大数据平台,然后进行相关的计算。程序调用有并行和串行两种方式,是否用并行调度的那个脚本,取决于服务器的磁盘空间大小及源Mysql库
2017-03-21 17:41:02 1930
原创 Python从阿里云Oss拉数据写入Hive表并进行相关处理
数据的流向是:先从Oss拉取原始日志文件数据,根据Hive分区表建表规范放在HDFS上;然后将数据根据不同的过滤条件分别插入到对应的其他中间表;由于空间有限,原始数据转移处理好之后,立马删除从Oss上拉取下来的日志数据;之后,再分别对各中间表数据利用Hive正则进行切分和提取,并根据需求进行汇总统计及tableau展现。1、Hive目标库建表drop table if exists xx_
2017-03-20 12:26:58 1617
原创 Hadoop任务查看管理相关
1.查看 Job 信息:hadoop job -list 2.杀掉 Job: hadoop job –kill job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir 5.打印map和reduce完成百分比
2017-03-17 19:40:33 5491
原创 HDFS的常用操作
一、HDFS文件的权限与Linux文件权限类似r: read; w:write; x:execute,权限x对于文件忽略,对于文件夹表示是否允许访问其内容。如果Linux系统用户hdp使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是hdp。HDFS的权限目的:阻止好人错错事,而不是阻止坏人做坏事;HDFS相信,你告诉我你是谁,我就认为你是谁。二、HD
2017-03-17 14:20:23 1805
原创 Hadoop回收站机制
1、简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash,回收站里的文件可以快速恢复。可以设置一个时间阀值,当回收站里文件的存放时间超过这个阀值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。2、回收站功能启用Hadoop的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启。修改core-site.xml,增
2017-03-17 12:10:44 4153
原创 Python字符串格式化
1、格式化操作符(%)%"是Python风格的字符串格式化操作符,非常类似C语言里的printf()函数的字符串格式化(C语言中也是使用%)。%c :--> 转换成字符(ASCII 码值,或者长度为一的字符串)%r :--> 优先用repr()函数进行字符串转换%s :--> 优先用str()函数进行字符串转换%d / %i :--> 转成有符号十进制数%u :--> 转成
2017-03-17 11:06:01 609
原创 通过Shell数组传参控制Sql脚本串并行调度一例
一、目录环境[hadoop@emr-worker-9 UserPortrait]$ pwd/home/hadoop/nisj/UserPortrait[hadoop@emr-worker-9 UserPortrait]$ lltotal 616-rw-r--r-- 1 hadoop hadoop 2516 Mar 7 18:21 indexCalc-barrage-byUidOn
2017-03-13 10:19:11 1078
原创 Python访问Mysql分表数据的方法示例
1、源表、目标表结构show create table user_profile_252;CREATE TABLE `user_profile_252` ( `uid` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '用户ID', `nickname` varchar(45) CHARACTER SET utf8 NOT NULL COMMEN
2017-03-07 11:54:55 1306 2
原创 Linux下模拟多线程的并发shell脚本写法
一个在Linux下模拟多线程的并发的方法,使用这个方法可以同时批量在定义数量的服务器上执行相关命令,比起普通for/while循环只能顺序一条一条执行的效率高非常多。1、不使用多线程的情况/Users/nisj/PycharmProjects/BiDataProc/UserPortrait/user_portrait_view_singleThread.sh#!/usr/bin/env
2017-03-03 16:39:46 4828
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人