2016年06月_BabyFish13

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创通过sqoop增量传送oracle数据到hive

从网上看到的一个oracle数据通过sqoop每日增量同步到hive的shell脚本，感觉以后会有用，作为参考，备查。[spark@store ~]$ cat oracle2hive_imcrement.sh#!/bin/bash#Please set the synchronize interval,unit is hour.update_interval=24#Please s

2016-06-30 18:18:05 2649

原创淘宝Hadoop集群机器硬件配置及使用场景

国内外使用Hadoop的公司比较多，全球最大的Hadoop集群在雅虎，有大约25000个节点，主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、腾讯、华为、中国移动等，其中淘宝的Hadoop集群属于较大的（如果不是最大）。淘宝Hadoop集群现在超过1700个节点，服务于用于整个阿里巴巴集团各部门，数据来源于各部门产品的线上数据库（Oracle, MySQL）备份，

2016-06-30 17:51:08 2088

原创 Hadoop生态系统搭建总结

主要涉及hadoop、hive、hbase、zookeeper、sqoop等，详细过程参见官方文档，本文只是总结常见的一些问题。1、首先是版本的选择，一般选择cloudera 的cdh版，注意相互之间的兼容性，否则出现莫名其妙的问题。2、配置ssh无密码访问时要注意，.ssh目录的权限问题，跟各个开发包一样，各节点必须一致，否则会出现启动Hadoop时让手动输密码。3、在配置c

2016-06-30 17:39:19 1116

原创大数平台数据仓库处理对应的总控调度

与[大数据平台用于生成数据跑批脚本的脚本(version3.0)]对应。1、定时执行情况[hs@master dw-etl]$ crontab -l*/5 * * * * sh /home/hs/opt/dw-etl/etl-script/qrt/qrt-minute_batch.sh0 * * * * sh /home/hs/opt/dw-etl/etl-script/q

2016-06-24 17:56:01 866

原创大数据平台新加接口表（或接口表表结构变更）脚本更新及数据初始化

与大数据平台用于生成数据跑批脚本的脚本(version3.0)对应。1、目录路径[hs@master manual_proc]$ pwd/home/hs/opt/dw-etl/manual_proc[hs@master manual_proc]$ tree -f.├── ./cstab_str+data_update.sh├── ./manual_update_

2016-06-24 17:19:42 1434

原创大数据平台用于生成数据跑批脚本的脚本(version3.0)

一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate [hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./bigtable-create_allstage_suppertab_int_sc

2016-06-24 16:20:43 2921

原创大数据平台用于生成数据跑批脚本的脚本(version2.0)

一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate[hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./etl_table_list_update.sh├─

2016-06-01 15:46:29 17885

原创 Linux shell function call Sample

[hs@master Log_Data]$ cat dw_parameter_ex.sh#!/bin/bash#99_dianz total data proc ...src_dbip=`sh /home/hs/opt/public-function/getsrcinfo.fc dbip 99_dianz`src_user=`sh /home/hs/opt/public-

2016-06-01 11:45:02 1236