hadoop
文章平均质量分 83
li72li72
数据服务中心,数据处理,ETL
展开
-
hadoop example
package com.li72.hadoop;import java.io.File;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import原创 2014-04-22 21:48:09 · 1391 阅读 · 0 评论 -
json数据源文件解析
文章: http://blog.csdn.net/lili72背景: 分布式文件通过rsync同步到生产机。 文件数 1440=24*60 也就是一分钟生成一个文件 文件命名 0000 0001 0002 ... 2358 2359 。由于文件传过来是JSON格式,需要对文件进行解析,导入HDFS中。 过程 1 rsync同步文件到当天的日期目录,每天实时把文件原创 2014-12-19 22:07:09 · 2084 阅读 · 0 评论 -
nginx安装配置记录
文章出处:http://blog.csdn.net/lili72环境cenos5.9 安装在192.168.119.131上进行.安装路径统一为/home/bigdata/ 1 安装之前需要先安装: 1.1 openssl 1.1.1 下载 ,cd /home/bigdata/ wget http://www.openssl.org/source/openssl-原创 2015-01-31 21:43:57 · 7193 阅读 · 1 评论 -
hadoop平台读取文件报错
背景: 生产环境有个脚本执行读取st层表数据时出现IO错误,查看表目录下的文件,都是压缩后的文件。详细信息如下:Task with the most failures(4):-----Task ID:task_201408301703_172845_m_003505URL:http://master:50030/taskdetails.jsp?jobid=j原创 2014-12-08 22:19:36 · 6178 阅读 · 1 评论 -
用户标签设计
http://blog.csdn.net/lili72背景: 需要更加符合实际的了解用户对产品的使用情况,取每天流水数据,统计分析一个时间段用户的行为特点: 用户地区属性:最近30天出现的地方,据此推测用户所在地方,用户出现最多和用户最近出现的地方。 用户偏好属性:最近30天用户使用的菜单,据此推测用户所偏好的产品,更深入知道用户的年龄层,定向向用户推送类似的产品。原创 2014-12-09 23:35:58 · 3946 阅读 · 0 评论 -
etl工作中的设计问题
http://blog.csdn.net/lili72背景1 : 随着接入数据和处理数据的增加,生产脚本也越来越多,脚本由于前期的开发人员没有做到规范管理,导致脚本很乱。解决方案: 1) 在lunix上规范目录,按平台,业务模块分目录存放。 2) 做好版本管理,提交到生产的脚本必须要commit到svn服务器。 3) lunix上的目录是反应到svn的目录映射。原创 2014-12-10 22:12:39 · 1266 阅读 · 0 评论 -
mahou 安装实例
1 下载mahout http://mirrors.hust.edu.cn/apache/mahout/0.9/ 2 选择安装到130 机 复制到 130机的 /home/bigdata/中 解压 tar -zxvf mahout-distribution-0.9.tar.gz 改名 mv mahout-distribution-0.9.tar.gz mahout 3 设置环境变量 vi /etc/profile MAHOUT_HOME=/home/bodat原创 2014-08-02 21:56:14 · 1042 阅读 · 0 评论 -
storm准实时应用
1 应用背景: 需要实时统计用户的登陆数,在线人数,活跃时间,下载等指标的数据,或者清洗后移到hdfs上。 2 设计架构: 1) 客户端产生数据--- 2) kafka-生产者实时采集数据(保留7天)----- 3) storm实时消费数据,处理数据 4)把实时数据统计结果缓存到memcached 中原创 2014-12-29 22:33:16 · 4390 阅读 · 0 评论 -
数据平台调度系统的设计
文章出自: http://blog.csdn.net/lili72 1 能定时发起各类型的任务1.1 任务类型比如 shell脚本,或者jar 程序,或者调用存储过程1.2 可以设置每天什么时候开始执行,每天执行几次。或者每隔多久执行一次(类crontab)1.3 数据平台一般的任务类型有: 1.3.1 101任务: 检查数据源文件是否到齐(包括文件个数,或者原创 2015-01-02 15:05:50 · 3777 阅读 · 1 评论 -
Memcached安装与使用
Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提供动态、数据库驱动网站的速度。Memcached基于一个存储键/值对的hashmap。memcached 是以LiveJournal 旗下Danga Interactive 公司的Brad Fitzpatric 为首开发的一款软件。原创 2012-07-08 17:36:53 · 981 阅读 · 0 评论 -
eclipse 配置maven 项目
1 检查eclipse 是否已经有maven插件: windows-----preferences--- 输入maven 如果有表明已经安装了。否则没有安装。 搜索 安装m2eclipse插件 安装 2 我的eclipse4.3.0 已经有了,在此不在描述安装插件过程。 3 设置eclipse关联自己 安装的maven Apply 点击ok原创 2012-07-08 17:42:04 · 1015 阅读 · 0 评论 -
zookeeper 实践安装
start Android原创 2012-03-16 23:51:04 · 898 阅读 · 0 评论 -
hive ,sqoop使用的jdbc驱动版本(mysql-connector-java-5.1.23-bin.jar)影响hive使用
2014-04-01 04:16:57,190 ERROR DataNucleus.Plugin (Log4JLogger.java:error(115)) - Bundle "org.eclipse.jdt.core" requires "org.eclipse.core.resources" but it cannot be resolved.2014-04-01 04:16:57,190原创 2014-05-17 19:47:06 · 7300 阅读 · 0 评论 -
Spark1.0.0 分布式环境搭建
软件版本如下:HostnameIPHadoop版本Hadoop功能系统master192.168.119.1281.1.2namenodejdk1.6+hadoop+scala2.9.3+spark1.0.0centos4.9原创 2014-06-22 11:22:21 · 3846 阅读 · 1 评论 -
storm0.9.1 集群环境安装配置
Storm安装配置三台机器 131,132,133需要安装 jdk,python,autoconf-2.64,zeromq-3.2.2,jzmq安装jdk和python不详细说。 1 安装 autoconf-2.64, 1.1 下载 http://download.chinaunix.net/download.php?id=29328&ResourceID=648原创 2014-07-02 23:00:20 · 2977 阅读 · 0 评论 -
hadoop2.2 新增数据节点
HostnameIPHadoop版本Hadoop功能系统hadoop2192.168.119.1312.2.0namenodejdk1.6+hadoopcentos5.9 h2slave1192.168.119原创 2014-08-17 14:04:53 · 1891 阅读 · 0 评论 -
sqoop相关整理记录
生产背景:在从mysql导入到hive中,遇到如下问题: 1) 源mysql和集群机器不在同一个网段中,导致执行导入命令,网络连接失败。 2) 某些字符导入到hive中,出现报错终止。 2.1 sqoop使用的JDBC-connector 版本太低(更换版本)。从hive导出到mysql中,遇到如下问题: 1)某些字符插入mysql,出现报错终止。 1.1原创 2014-11-07 21:16:42 · 17409 阅读 · 0 评论 -
hadoop平台工作梳理
数据平台: 一、 hadoop平台:Hbase,hive,storm,spark 1) 部署hadoop到多台机器,调整配置参数,保证正常运行。可能出现作业挂死现象。 2) 部署hive客户端,元数据库mysql等的配置,hive客户端是不参与集群的,mysq原创 2014-11-15 00:04:23 · 3300 阅读 · 0 评论 -
hadoop 环境准备
1 上传JDK文件jdk-6u45-linux-i586.bin 到/home/bigdata/ 1.1 赋权 chmod +x jdk-6u45-linux-i586.bin 1.2 解压 ./ jdk-6u45-linux-i586.bin 1.3 配置环境变量 vi /etc/profile 增加 到文件原创 2012-07-08 17:41:09 · 844 阅读 · 0 评论 -
awk 学习记录
思考。原创 2012-02-26 18:33:53 · 562 阅读 · 0 评论 -
hive设置mysql元数据编码问题
文章来自:http://blog.csdn.net/lili72Mysql默认安装,建表时出现如下异常。FAILED: Error in metadata: javax.jdo.JDODataStoreException: An exception was thrown while adding/validating class(es) : Specified key was too long; max key length is 767 bytes com.mysql.jdbc.exceptio原创 2013-08-31 11:07:09 · 4317 阅读 · 0 评论