工作总结
文章平均质量分 81
li72li72
数据服务中心,数据处理,ETL
展开
-
复习总结
类型 方式 参考书籍原创 2012-03-13 16:03:02 · 615 阅读 · 0 评论 -
数据平台调度系统的设计
文章出自: http://blog.csdn.net/lili72 1 能定时发起各类型的任务1.1 任务类型比如 shell脚本,或者jar 程序,或者调用存储过程1.2 可以设置每天什么时候开始执行,每天执行几次。或者每隔多久执行一次(类crontab)1.3 数据平台一般的任务类型有: 1.3.1 101任务: 检查数据源文件是否到齐(包括文件个数,或者原创 2015-01-02 15:05:50 · 3796 阅读 · 1 评论 -
周平均月平均设计
http://blog.csdn.net/lili72背景: 有些报表除了需要每天的数据走势图,有时还需要每周的平均和每月的平均,再和上周或月作比较,计算差值,然后分别形成周平均报表和月平均报表。日报表:每天计算报表数据周报表:每周某个时间只计算一次月报表:每月每个时间只计算一次 以下设计可以作为比较通用的周月差值计算方式。考虑到查询条件的跨年,所以设计表的时候有原创 2015-01-19 21:34:42 · 2242 阅读 · 0 评论 -
工作中的oracle常用维护
http://blog.csdn.net/lili72背景:由于历史原因,公司部分业务还在使用oracle中。一出问题就是搞的很麻烦。由于长期使用的是mysql 和hive,Hbase等,一些oracle的命令慢慢的也是忘记了,但是公司某些在oracle上的业务,突然出现问题,每次查找问题都查得比较费劲,现把常用命令记录下来。 常遇到的oracle的问题: 1.原创 2015-01-15 21:34:07 · 1186 阅读 · 0 评论 -
storm准实时应用
1 应用背景: 需要实时统计用户的登陆数,在线人数,活跃时间,下载等指标的数据,或者清洗后移到hdfs上。 2 设计架构: 1) 客户端产生数据--- 2) kafka-生产者实时采集数据(保留7天)----- 3) storm实时消费数据,处理数据 4)把实时数据统计结果缓存到memcached 中原创 2014-12-29 22:33:16 · 4407 阅读 · 0 评论 -
nginx安装配置记录
文章出处:http://blog.csdn.net/lili72环境cenos5.9 安装在192.168.119.131上进行.安装路径统一为/home/bigdata/ 1 安装之前需要先安装: 1.1 openssl 1.1.1 下载 ,cd /home/bigdata/ wget http://www.openssl.org/source/openssl-原创 2015-01-31 21:43:57 · 7217 阅读 · 1 评论 -
json数据源文件解析
文章: http://blog.csdn.net/lili72背景: 分布式文件通过rsync同步到生产机。 文件数 1440=24*60 也就是一分钟生成一个文件 文件命名 0000 0001 0002 ... 2358 2359 。由于文件传过来是JSON格式,需要对文件进行解析,导入HDFS中。 过程 1 rsync同步文件到当天的日期目录,每天实时把文件原创 2014-12-19 22:07:09 · 2112 阅读 · 0 评论 -
SecureCRTP配置几个小技巧
原文来自:http://blog.csdn.net/lili72 lili72背景:由于在lunix上操作,最常用的是secureCRT,现在把这个工具,基本常用方式记录一下。 一: 设置直接跳到跳板机,不要再次ssh 登陆。A--B-->C 不用跳2次到达目的机,一次直接到达。1 2 3456 7 8 二:设置编辑器原创 2015-01-27 22:20:16 · 2988 阅读 · 0 评论 -
数据源监控与预警
最近工作需要做一个数据源监控系统,监测每天的数据是否,按时,按量送过来,首先应为数据接入过来的时候,已经记录了相关的日志,比如文件到达时间,文件总个数,文件中总记录数,文件大小,数据日期等,现在要对这些指标进行监控并及时预警(发短信或邮件到对应的负责人),并记录到预警表中,好对预警后的异常进行跟踪处理。考虑到节假日对数据量的影响,还增加文件记录数和文件大小的同比,环比进行监测。名词解释:同原创 2014-10-11 21:00:33 · 4954 阅读 · 0 评论 -
hadoop平台工作梳理
数据平台: 一、 hadoop平台:Hbase,hive,storm,spark 1) 部署hadoop到多台机器,调整配置参数,保证正常运行。可能出现作业挂死现象。 2) 部署hive客户端,元数据库mysql等的配置,hive客户端是不参与集群的,mysq原创 2014-11-15 00:04:23 · 3322 阅读 · 0 评论 -
etl工具,kettle实现循环
业务模型: 在关系型数据库中有张很大的表,被设计成奇偶库存储,每个库100张一模一样的表,每张表存储1000W,字段切换到下一个表。现需要同步这个数据到hive中(hdfs),循环抽取这些数据。如果是抽取增量的带上增量字段(每天增量数据存储在哪个表,奇数库还是偶数库是不知道的)。原创 2014-10-01 08:13:16 · 21841 阅读 · 4 评论 -
sqoop相关整理记录
生产背景:在从mysql导入到hive中,遇到如下问题: 1) 源mysql和集群机器不在同一个网段中,导致执行导入命令,网络连接失败。 2) 某些字符导入到hive中,出现报错终止。 2.1 sqoop使用的JDBC-connector 版本太低(更换版本)。从hive导出到mysql中,遇到如下问题: 1)某些字符插入mysql,出现报错终止。 1.1原创 2014-11-07 21:16:42 · 17437 阅读 · 0 评论 -
storm0.9.1 集群环境安装配置
Storm安装配置三台机器 131,132,133需要安装 jdk,python,autoconf-2.64,zeromq-3.2.2,jzmq安装jdk和python不详细说。 1 安装 autoconf-2.64, 1.1 下载 http://download.chinaunix.net/download.php?id=29328&ResourceID=648原创 2014-07-02 23:00:20 · 2991 阅读 · 0 评论 -
java web知识整理,对比。
Servlet jsp类装载及实例创建阶段、实例初始化阶段、服务阶段以及实例销毁阶段。 1、运行速度上比CGI快,因为使用了多线程2、servlet使用了标准的api,可被许多web服务支持3、与系统无关性,一次编译多次使用 1,初始化阶段 调用init()方法 2,响应客户请求阶段 调用service()方法 3,终止阶段 调用d原创 2013-03-17 12:06:04 · 1914 阅读 · 0 评论 -
hive客户端升级及添加hadoop超级权限
文章来自:http://blog.csdn.net/lili72背景: 旧版本的hive 在用的过程中,经常出现一些bug,无法解决,比如无法找到表们无法找到分区等。由于并发比较大,常见如下异常:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'hive.DELETEME1414791576856' do原创 2015-01-25 23:08:55 · 2773 阅读 · 0 评论