自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BabyFish13

技术、业务、生活、人生......

  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

原创 Python根据AccessLog统计对应Url的点击量2

要实现的需求,跟【Python根据AccessLog统计对应Url的点击量-->http://blog.csdn.net/babyfish13/article/details/70304308】一文中所描述的需求相同,只是方法各异。前文中是纯shell(cat、grep、wc等)+Python总控调度,采用多线程汇总统计Hdsf中的数据文件;本文是通过先将Hdfs中的文件按照规则拷贝至新目录,

2017-04-28 17:06:45 1317

原创 Python自动化拉取Mysql数据并装载到Hive

程序调用有并行和串行两种方式,是否用并行调度的那个脚本,取决于服务器的磁盘空间大小及源Mysql库的性能。代码调用的时候(串并行),主要修改两方面:1、如果不存在数据源则在【ParProc.py】重新配置一个;2、在串并行调度的时候,传数据源配置名、表名、表类型参数给调度程序。本次更新修改,主要涉及数据的传参等更为合理一些;实际上,在进行数据传输的时候,还有一个Bug,就是数据传输的文本字

2017-04-26 11:36:25 1549

原创 Python根据AccessLog统计对应Url的点击量

1、场景说明AccessLog已经从阿里Oss上拉取到Hdfs上了,数据是按机器名、日期、小时存放的。每天有上千个文件,500G左右的大小。单个文件命名如下所示:/tmp/oss_access/2017-04-16/sz-98-72_localhost_access_log.2017-04-16.08.txt/tmp/oss_access/2017-04-16/sz-jf-serve

2017-04-20 20:53:06 837

原创 Python多线程下的_strptime问题

由于Python的datetime和time中的_strptime方法不支持多线程,运行时会报错:AttributeError: _strptimedef dateHourRange(beginDateHour, endDateHour): dateHours = [] dt = datetime.datetime.strptime(beginDateHour, "%Y-%m-

2017-04-19 08:29:41 1171

原创 Shell打印日期范围的列表日期

1、输入两日期参数打印两日期范围内的日期列表printRangeDate.sh#!/bin/bash # startdate="$1"date1=$(date -d "$1" "+%s") date2=$(date -d "$2" "+%s") date_count=$(echo "$date2 - $date1"|bc) day_m=$(echo "$date_count

2017-04-17 11:19:26 3020

原创 Hive建Hdfs外部分区表

1、目录及数据准备hadoop dfs -rmr /tmp/oss_access_test/2017-04-01hadoop dfs -mkdir -p /tmp/oss_access_test/2017-04-01/hadoop dfs -cp /tmp/oss_access/2017-04-01/sz-98-72_localhost_access_log.2017-04-01.*.tx

2017-04-12 16:40:45 4208

原创 用Shell根据AcessLog统计对应的点击量

环境说明:AcessLog已经装载到Hdfs上,数据的存储是按日期存放,每天数据又按机器名、小时命名的文件进行存放。正常情况,一天的数据文件2300多个,大小是3~400G。1、将数据按小时分块,并行计算执行时长,20分钟左右。目前三种方案中较理想与合理的一种。#!/bin/bash for(( i = 0; i < 24; i++ )) do {hour2=`pri

2017-04-11 16:36:16 524

原创 hive上连续登录天数的查询

1、数据测试表及测试数据测试表表结构:hive> desc data_room;OKroomid string pt_month string pt_day

2017-04-08 16:18:40 4729

原创 Python自动化拉取Mysql数据并装载到Oracle

Mysql的数据表分为普通的表及以键值与256取模分表两种形式,暂时未处理源表是分表的情况;流程顺序是先根据Mysql表结构进行Oracle库上的建表,然后从Mysql将数据直接插入到Oracle数据库中。处理过程中,考虑到每行一提交的效率问题,所以默认设置了1000行提交一次的Oracle数据插入方式。目前,暂不考虑数据的增量更新;主要考虑目前的数据环境较乱,可以较方便的将适用于Orac

2017-04-07 16:26:15 2004 2

原创 利用存储过程实现Oracle的drop table if exists

在Mysql中可以使用[drop table if exists tab_name]来实现目标表的无报错删除,但在Oracle中不支持这样的语法。要想实现Mysql中简洁明效的功能,可以考虑使用事务加以控制处理:BEGIN EXECUTE IMMEDIATE 'DROP TABLE [table_name]'; EXCEPTION WHEN OTHERS THEN NULL

2017-04-07 15:53:26 4482

原创 python通过cx_Oracle模块连接Oracle乱码问题

用python连接Oracle是总是乱码,最有可能的是oracle客户端的字符编码设置不对。本人是在进行数据插入的时候总是报关键字"From"不存在,打印插入的Sql在pl/sql中进行插入,没有问题。所以,后来从字符集编码上去考虑和解决问题。编写的python脚本中需要加入:import osos.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_

2017-04-01 14:46:02 2565

证券期货业数据模型3-证券公司逻辑模型

证券期货业数据模型3-证券公司逻辑模型

2022-02-15

有赞数据仓库元数据系统的演进(有赞Data沙龙).pdf

有赞数据仓库元数据系统的演进

2021-01-18

有赞大数开发平台剖析

有赞大数开发平台剖析

2021-01-18

DM数据仓库建模

数据仓库建模的有关说明 详细的文档及解读的ppt

2019-03-22

面试问答65例.pdf

面试经验的总结和参考,同时也是思想认识、价值观、工作态度方面的一本好教材。

2018-01-31

NCR逻辑模型设计概览

逻辑模型设计 方法论;一些数据仓库建模时的参考,方法等。主要用在数据仓库体系规划、架构设计方面的参考。

2018-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除