nginx安装配置记录 文章出处:http://blog.csdn.net/lili72环境cenos5.9 安装在192.168.119.131上进行.安装路径统一为/home/bigdata/ 1 安装之前需要先安装: 1.1 openssl 1.1.1 下载 ,cd /home/bigdata/ wget http://www.openssl.org/source/openssl-
SecureCRTP配置几个小技巧 原文来自:http://blog.csdn.net/lili72 lili72背景:由于在lunix上操作,最常用的是secureCRT,现在把这个工具,基本常用方式记录一下。 一: 设置直接跳到跳板机,不要再次ssh 登陆。A--B-->C 不用跳2次到达目的机,一次直接到达。1 2 3456 7 8 二:设置编辑器
hive客户端升级及添加hadoop超级权限 文章来自:http://blog.csdn.net/lili72背景: 旧版本的hive 在用的过程中,经常出现一些bug,无法解决,比如无法找到表们无法找到分区等。由于并发比较大,常见如下异常:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'hive.DELETEME1414791576856' do
周平均月平均设计 http://blog.csdn.net/lili72背景: 有些报表除了需要每天的数据走势图,有时还需要每周的平均和每月的平均,再和上周或月作比较,计算差值,然后分别形成周平均报表和月平均报表。日报表:每天计算报表数据周报表:每周某个时间只计算一次月报表:每月每个时间只计算一次 以下设计可以作为比较通用的周月差值计算方式。考虑到查询条件的跨年,所以设计表的时候有
工作中的oracle常用维护 http://blog.csdn.net/lili72背景:由于历史原因,公司部分业务还在使用oracle中。一出问题就是搞的很麻烦。由于长期使用的是mysql 和hive,Hbase等,一些oracle的命令慢慢的也是忘记了,但是公司某些在oracle上的业务,突然出现问题,每次查找问题都查得比较费劲,现把常用命令记录下来。 常遇到的oracle的问题: 1.
数据平台调度系统的设计 文章出自: http://blog.csdn.net/lili72 1 能定时发起各类型的任务1.1 任务类型比如 shell脚本,或者jar 程序,或者调用存储过程1.2 可以设置每天什么时候开始执行,每天执行几次。或者每隔多久执行一次(类crontab)1.3 数据平台一般的任务类型有: 1.3.1 101任务: 检查数据源文件是否到齐(包括文件个数,或者
storm准实时应用 1 应用背景: 需要实时统计用户的登陆数,在线人数,活跃时间,下载等指标的数据,或者清洗后移到hdfs上。 2 设计架构: 1) 客户端产生数据--- 2) kafka-生产者实时采集数据(保留7天)----- 3) storm实时消费数据,处理数据 4)把实时数据统计结果缓存到memcached 中
json数据源文件解析 文章: http://blog.csdn.net/lili72背景: 分布式文件通过rsync同步到生产机。 文件数 1440=24*60 也就是一分钟生成一个文件 文件命名 0000 0001 0002 ... 2358 2359 。由于文件传过来是JSON格式,需要对文件进行解析,导入HDFS中。 过程 1 rsync同步文件到当天的日期目录,每天实时把文件
etl工作中的设计问题 http://blog.csdn.net/lili72背景1 : 随着接入数据和处理数据的增加,生产脚本也越来越多,脚本由于前期的开发人员没有做到规范管理,导致脚本很乱。解决方案: 1) 在lunix上规范目录,按平台,业务模块分目录存放。 2) 做好版本管理,提交到生产的脚本必须要commit到svn服务器。 3) lunix上的目录是反应到svn的目录映射。
用户标签设计 http://blog.csdn.net/lili72背景: 需要更加符合实际的了解用户对产品的使用情况,取每天流水数据,统计分析一个时间段用户的行为特点: 用户地区属性:最近30天出现的地方,据此推测用户所在地方,用户出现最多和用户最近出现的地方。 用户偏好属性:最近30天用户使用的菜单,据此推测用户所偏好的产品,更深入知道用户的年龄层,定向向用户推送类似的产品。
hadoop平台读取文件报错 背景: 生产环境有个脚本执行读取st层表数据时出现IO错误,查看表目录下的文件,都是压缩后的文件。详细信息如下:Task with the most failures(4):-----Task ID:task_201408301703_172845_m_003505URL:http://master:50030/taskdetails.jsp?jobid=j
hadoop平台工作梳理 数据平台: 一、 hadoop平台:Hbase,hive,storm,spark 1) 部署hadoop到多台机器,调整配置参数,保证正常运行。可能出现作业挂死现象。 2) 部署hive客户端,元数据库mysql等的配置,hive客户端是不参与集群的,mysq
sqoop相关整理记录 生产背景:在从mysql导入到hive中,遇到如下问题: 1) 源mysql和集群机器不在同一个网段中,导致执行导入命令,网络连接失败。 2) 某些字符导入到hive中,出现报错终止。 2.1 sqoop使用的JDBC-connector 版本太低(更换版本)。从hive导出到mysql中,遇到如下问题: 1)某些字符插入mysql,出现报错终止。 1.1
数据源监控与预警 最近工作需要做一个数据源监控系统,监测每天的数据是否,按时,按量送过来,首先应为数据接入过来的时候,已经记录了相关的日志,比如文件到达时间,文件总个数,文件中总记录数,文件大小,数据日期等,现在要对这些指标进行监控并及时预警(发短信或邮件到对应的负责人),并记录到预警表中,好对预警后的异常进行跟踪处理。考虑到节假日对数据量的影响,还增加文件记录数和文件大小的同比,环比进行监测。名词解释:同
hightmaps 按地图显示统计量 从extjs 到 easyui 到html5到hightchars 再到hightmaps。Exjts和easyui很相似,extjs是重量级的,easyui轻量级的,比extjs容易上手,照着demo改就可以开发了,easyui入门demo见:easyui-demo,或者到官网http://www.jeasyui.com/;会了easyui开发,上手html5界面开发也非常的快,大多类似的,到h