2012年05月_rzhzhz

09月 07月 06月 05月 04月 03月 02月 01月

原创 Flume数据推送（Push）

一直都是用flume的pull方式收集日志数据，为了便于以后对业务系统实时日志收集的扩展，今天研究了下push方式的日志收集。 1.首先agent端应该配置以下几种source（监听TCP/UDP端口）： syslogUdp(port)监听Udp端口syslogTcp(port)监听Tcp端口sys

2012-05-28 18:49:03 6823

原创 Flume agent端event重复发送（数据暴增不一致）的问题

一直用flume做数据收集，用了好一阵子都没出现数据误差的问题，今天在导入数据的时候却突然出现了数据暴增的问题，查看原始数据文件，只有几十万条数据，可却收集到了几百万的event，而且还在持续的增加。很奇怪，首先以为是插件更新的问题，后来换成最原始的console作为Collector的sink，问题依旧存在。然后清理配置数据重新启动，问题还是没有解决。查看原始数据并与原有的数据对

2012-05-28 18:28:13 6482

原创 HBase中LeaseException及ClosedChannelException解决办法

随着数据量的增大，HIVE查询HBase的时候又出现了scan数据缓慢的问题，上次是因为跨网段读数据没有设置client端cache，这次是在HBase regionserver的log中出现了如下错误: org.apache.hadoop.hbase.regionserver.LeaseException: lease '-8841369309248784313' does not ex

2012-05-28 17:22:51 8698

原创 Hive基本使用①

1.启动Hive$HIVE_HOME/bin/hive 如果使用内嵌Derby数据库作为metastore（本地metastore）,那么仅支持单用户，而且在不同目录下运行hive（如果设置了hive的path）,其metastore所在目录也不一样。建立使用独立metastore（比如mysql），又称远程metastore。 2.执行脚本文件hive -f f

2012-05-21 18:26:38 8032

转载 Hadoop动态添加删除datanode及tasktracker

首先建议datanode和tasktracker分开写独立的exclude文件，因为一个节点即可以同时是datanode和tasktracker，也可以单独是datanode或tasktracker。 1、删除datanode修改namenode上的hdfs-site.xmldfs.hosts /usr/local/hadoop/conf/datanode-allow-li

2012-05-17 18:10:16 4904

原创 Hadoop MapReduce时Too many open files解决办法

在HIVE执行MR的时候，报如下错误java.io.IOException: Call to server/10.64.49.21:9001 failed on local exception: java.io.IOException: Too many open files at org.apache.hadoop.ipc.Client.wrapException(Clien

2012-05-17 17:36:15 5344

原创 Linux Tab键命令补全失效解决办法

环境描述系统：Debian用户：hadoop 问题描述突然便出现了Tab键不能补全的问题，cat、ls、cd都如此，如下hadoop@Debian:/tmp$ vi no-sh: <( compgen -d -- 'no' ): No such file or directory-sh: '*.@(o|so|so.!(conf)|a|rpm|gif|GIF|jp?(e)

2012-05-16 17:03:35 56039 4

原创 Pig Hive对比

Pig Latin：数据流编程语言一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。用Pig Latin编程更像在RDBMS中“查询规划器”（query planner）这一层对数据进行操作，查询规划器决定了如何将描述型语句转化为一系列系统化执行的步骤。Pig对它所处理的数据要求则宽松得多；可以在运行时定义模式，而且这是可选的。本质上，Pig可以

2012-05-11 16:27:55 18560

原创由hbase.client.scanner.caching参数引发的血案

环境描述Hadoop 0.20.203.0Hbase 0.90.3Hive 0.80.1 问题描述前几天，在HIVE执行SQL查询的时候出现了一个很奇怪的问题：就是每个SQL（涉及到MapReduce的SQL任务）在执行到某个百分比的时候，整个JOB会出现假死的情况。 2012-04-28 18:22:33,661 Stage-1 map = 0%

2012-05-04 23:19:24 9132 6

转载 Hadoop中Speculative Task调度策略

1. 背景Speculative Task，又叫推测式任务，是指在分布式集群环境下，因为程序bug，负载不均衡或者资源分布不均，造成同一个job的多个task运行速度不一致，有的task运行速度明显慢于其他task（比如：一个job的某个task进度只有10%，而其他所有task已经运行完毕），则这些task拖慢了作业的整体执行进度，为了避免这种情况发生，Hadoop会为该task启动spec

2012-05-04 21:55:17 26252 3

前言和导读安装和使用 2.1. 安装shopex 2.1.1. 如何选择主机 2.2. 初始化配置系统 2.3. 系统调优 2.3.1. url rewrite 2.3.2. 搜索引擎优化(SEO) 2.3.3. 服务器配置 2.4. 操作技巧 2.4.1. 使用快捷键 2.4.2. 使用条码扫描器 2.5. 业务成长之后... 2.6. 升级方法扩展shopex 3.1. 插件体系 3.1.1. 用户登录插件(passport) 3.1.2. 图片存储方式插件(storager) 3.1.3. 支付方式插件(payment) 3.1.4. 网店机器人动作插件(actions) 3.1.5. 数据导入导出插件(dataio) 3.1.6. 用户消息插件(messenger) 3.1.7. 单独页面布局插件(layout) 3.1.8. 地区数据插件(location) 3.1.9. 网页挂件(widgets) 3.1.10. 商品插件(schema) 3.1.11. 前台功能插件(shop) 3.1.12. 后台功能插件(admin) 3.2. 软件功能包(app) 3.3. 使用二次开发接口 3.3.1. 案例A: 更改友情链接页面显示个数 3.4. 自定义核心流程页面模板系统探秘 4.1. 系统结构 4.1.1. 数据库结构定义文件 4.1.2. 网店对象 4.1.3. 业务模型(model) 4.2. 运行过程 4.2.1. 前台流程 4.2.2. 后台流程 4.3. 配置信息的存储 4.4. 模板系统 4.5. 缓存机制 4.5.1. 基于http协议的浏览器缓存 4.5.2. 前台全页缓存-控制器 4.5.3. 前台全页缓存-存储器 4.5.4. 模板缓存 shopex对外数据接口附录 6.1. setting 6.2. 数据库手册 6.3. 结构图

2012-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

厚积而薄发