li72li72
码龄14年
关注
提问 私信
  • 博客:270,212
    社区:812
    271,024
    总访问量
  • 72
    原创
  • 2,160,212
    排名
  • 59
    粉丝
  • 0
    铁粉

个人简介:数据服务中心,数据处理,ETL

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2011-02-26
博客简介:

数据服务中心,数据平台,数据开发

查看详细资料
个人成就
  • 获得86次点赞
  • 内容获得36次评论
  • 获得154次收藏
创作历程
  • 6篇
    2015年
  • 19篇
    2014年
  • 7篇
    2013年
  • 46篇
    2012年
  • 1篇
    2011年
成就勋章
TA的专栏
  • Html5
    1篇
  • java基础
    10篇
  • web前端
    4篇
  • uml
    2篇
  • 学习笔记
    33篇
  • 生活感悟
    3篇
  • 求职面试
  • 工作总结
    15篇
  • rose
  • ssh
    7篇
  • javascript
    1篇
  • dom
  • css
    1篇
  • jquery
  • 看书总结
    10篇
  • 数据库
    6篇
  • 算法
  • Android
  • 设计模式
  • git
    1篇
  • webservice
    1篇
  • maven
    2篇
  • spring(jpa)
  • hadoop
    21篇
  • db2
    1篇
  • shell
    6篇
  • kettle(pdi)
    3篇
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

nginx安装配置记录

文章出处:http://blog.csdn.net/lili72环境cenos5.9 安装在192.168.119.131上进行.安装路径统一为/home/bigdata/ 1 安装之前需要先安装:   1.1 openssl   1.1.1 下载 ,cd /home/bigdata/   wget  http://www.openssl.org/source/openssl-
原创
发布博客 2015.01.31 ·
7241 阅读 ·
4 点赞 ·
1 评论 ·
0 收藏

SecureCRTP配置几个小技巧

原文来自:http://blog.csdn.net/lili72  lili72背景:由于在lunix上操作,最常用的是secureCRT,现在把这个工具,基本常用方式记录一下。    一:  设置直接跳到跳板机,不要再次ssh 登陆。A--B-->C  不用跳2次到达目的机,一次直接到达。1 2 3456 7 8   二:设置编辑器
原创
发布博客 2015.01.27 ·
3009 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

hive客户端升级及添加hadoop超级权限

文章来自:http://blog.csdn.net/lili72背景: 旧版本的hive 在用的过程中,经常出现一些bug,无法解决,比如无法找到表们无法找到分区等。由于并发比较大,常见如下异常:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'hive.DELETEME1414791576856' do
原创
发布博客 2015.01.25 ·
2795 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

周平均月平均设计

http://blog.csdn.net/lili72背景: 有些报表除了需要每天的数据走势图,有时还需要每周的平均和每月的平均,再和上周或月作比较,计算差值,然后分别形成周平均报表和月平均报表。日报表:每天计算报表数据周报表:每周某个时间只计算一次月报表:每月每个时间只计算一次  以下设计可以作为比较通用的周月差值计算方式。考虑到查询条件的跨年,所以设计表的时候有
原创
发布博客 2015.01.19 ·
2278 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

工作中的oracle常用维护

http://blog.csdn.net/lili72背景:由于历史原因,公司部分业务还在使用oracle中。一出问题就是搞的很麻烦。由于长期使用的是mysql 和hive,Hbase等,一些oracle的命令慢慢的也是忘记了,但是公司某些在oracle上的业务,突然出现问题,每次查找问题都查得比较费劲,现把常用命令记录下来。   常遇到的oracle的问题:     1.
原创
发布博客 2015.01.15 ·
1194 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

数据平台调度系统的设计

文章出自: http://blog.csdn.net/lili72 1 能定时发起各类型的任务1.1  任务类型比如 shell脚本,或者jar 程序,或者调用存储过程1.2  可以设置每天什么时候开始执行,每天执行几次。或者每隔多久执行一次(类crontab)1.3 数据平台一般的任务类型有:   1.3.1  101任务: 检查数据源文件是否到齐(包括文件个数,或者
原创
发布博客 2015.01.02 ·
3812 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

storm准实时应用

1 应用背景: 需要实时统计用户的登陆数,在线人数,活跃时间,下载等指标的数据,或者清洗后移到hdfs上。 2 设计架构:        1) 客户端产生数据---        2) kafka-生产者实时采集数据(保留7天)-----        3) storm实时消费数据,处理数据        4)把实时数据统计结果缓存到memcached 中
原创
发布博客 2014.12.29 ·
4423 阅读 ·
4 点赞 ·
0 评论 ·
1 收藏

jackson-all

发布资源 2014.12.19 ·
jar

json数据源文件解析

文章: http://blog.csdn.net/lili72背景: 分布式文件通过rsync同步到生产机。 文件数 1440=24*60  也就是一分钟生成一个文件 文件命名 0000 0001 0002 ... 2358 2359 。由于文件传过来是JSON格式,需要对文件进行解析,导入HDFS中。   过程   1  rsync同步文件到当天的日期目录,每天实时把文件
原创
发布博客 2014.12.19 ·
2134 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

etl工作中的设计问题

http://blog.csdn.net/lili72背景1 : 随着接入数据和处理数据的增加,生产脚本也越来越多,脚本由于前期的开发人员没有做到规范管理,导致脚本很乱。解决方案:   1) 在lunix上规范目录,按平台,业务模块分目录存放。   2) 做好版本管理,提交到生产的脚本必须要commit到svn服务器。   3) lunix上的目录是反应到svn的目录映射。
原创
发布博客 2014.12.10 ·
1296 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

用户标签设计

http://blog.csdn.net/lili72背景: 需要更加符合实际的了解用户对产品的使用情况,取每天流水数据,统计分析一个时间段用户的行为特点:  用户地区属性:最近30天出现的地方,据此推测用户所在地方,用户出现最多和用户最近出现的地方。 用户偏好属性:最近30天用户使用的菜单,据此推测用户所偏好的产品,更深入知道用户的年龄层,定向向用户推送类似的产品。 
原创
发布博客 2014.12.09 ·
4007 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

hadoop平台读取文件报错

背景: 生产环境有个脚本执行读取st层表数据时出现IO错误,查看表目录下的文件,都是压缩后的文件。详细信息如下:Task with the most failures(4):-----Task ID:task_201408301703_172845_m_003505URL:http://master:50030/taskdetails.jsp?jobid=j
原创
发布博客 2014.12.08 ·
6218 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hadoop平台工作梳理

数据平台:                  一、  hadoop平台:Hbase,hive,storm,spark                        1) 部署hadoop到多台机器,调整配置参数,保证正常运行。可能出现作业挂死现象。                        2) 部署hive客户端,元数据库mysql等的配置,hive客户端是不参与集群的,mysq
原创
发布博客 2014.11.15 ·
3338 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

sqoop相关整理记录

生产背景:在从mysql导入到hive中,遇到如下问题: 1) 源mysql和集群机器不在同一个网段中,导致执行导入命令,网络连接失败。 2) 某些字符导入到hive中,出现报错终止。     2.1  sqoop使用的JDBC-connector 版本太低(更换版本)。从hive导出到mysql中,遇到如下问题: 1)某些字符插入mysql,出现报错终止。   1.1
原创
发布博客 2014.11.07 ·
17479 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

数据源监控与预警

最近工作需要做一个数据源监控系统,监测每天的数据是否,按时,按量送过来,首先应为数据接入过来的时候,已经记录了相关的日志,比如文件到达时间,文件总个数,文件中总记录数,文件大小,数据日期等,现在要对这些指标进行监控并及时预警(发短信或邮件到对应的负责人),并记录到预警表中,好对预警后的异常进行跟踪处理。考虑到节假日对数据量的影响,还增加文件记录数和文件大小的同比,环比进行监测。名词解释:同
原创
发布博客 2014.10.11 ·
4981 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

hightmaps 按地图显示统计量

从extjs 到 easyui 到html5到hightchars 再到hightmaps。Exjts和easyui很相似,extjs是重量级的,easyui轻量级的,比extjs容易上手,照着demo改就可以开发了,easyui入门demo见:easyui-demo,或者到官网http://www.jeasyui.com/;会了easyui开发,上手html5界面开发也非常的快,大多类似的,到h
原创
发布博客 2014.10.09 ·
24911 阅读 ·
3 点赞 ·
1 评论 ·
5 收藏

hightmaps-bi

发布资源 2014.10.09 ·
zip

struts2-easyui.

发布资源 2014.10.08 ·
zip

hightchar-js

发布资源 2014.10.08 ·
zip

kafka项目实例

发布资源 2014.10.02 ·
zip
加载更多