- 博客(8)
- 资源 (6)
- 收藏
- 关注
原创 通过sqoop增量传送oracle数据到hive
从网上看到的一个oracle数据通过sqoop每日增量同步到hive的shell脚本,感觉以后会有用,作为参考,备查。[spark@store ~]$ cat oracle2hive_imcrement.sh#!/bin/bash#Please set the synchronize interval,unit is hour.update_interval=24#Please s
2016-06-30 18:18:05 2649
原创 淘宝Hadoop集群机器硬件配置及使用场景
国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、腾讯、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,
2016-06-30 17:51:08 2088
原创 Hadoop生态系统搭建总结
主要涉及hadoop、hive、hbase、zookeeper、sqoop等,详细过程参见官方文档,本文只是总结常见的一些问题。1、首先是版本的选择,一般选择cloudera 的cdh版,注意相互之间的兼容性,否则出现莫名其妙的问题。2、配置ssh无密码访问时要注意,.ssh目录的权限问题,跟各个开发包一样,各节点必须一致,否则会出现启动Hadoop时让手动输密码。3、在配置c
2016-06-30 17:39:19 1116
原创 大数平台数据仓库处理对应的总控调度
与[大数据平台用于生成数据跑批脚本的脚本(version3.0)]对应。1、定时执行情况[hs@master dw-etl]$ crontab -l*/5 * * * * sh /home/hs/opt/dw-etl/etl-script/qrt/qrt-minute_batch.sh0 * * * * sh /home/hs/opt/dw-etl/etl-script/q
2016-06-24 17:56:01 866
原创 大数据平台新加接口表(或接口表表结构变更)脚本更新及数据初始化
与大数据平台用于生成数据跑批脚本的脚本(version3.0)对应。1、目录路径[hs@master manual_proc]$ pwd/home/hs/opt/dw-etl/manual_proc[hs@master manual_proc]$ tree -f.├── ./cstab_str+data_update.sh├── ./manual_update_
2016-06-24 17:19:42 1434
原创 大数据平台用于生成数据跑批脚本的脚本(version3.0)
一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate [hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./bigtable-create_allstage_suppertab_int_sc
2016-06-24 16:20:43 2921
原创 大数据平台用于生成数据跑批脚本的脚本(version2.0)
一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate[hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./etl_table_list_update.sh├─
2016-06-01 15:46:29 17885
原创 Linux shell function call Sample
[hs@master Log_Data]$ cat dw_parameter_ex.sh#!/bin/bash#99_dianz total data proc ...src_dbip=`sh /home/hs/opt/public-function/getsrcinfo.fc dbip 99_dianz`src_user=`sh /home/hs/opt/public-
2016-06-01 11:45:02 1236
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人