大数据技术
文章平均质量分 66
冰火两重天
专注于hadoop平台大数据处理的技术对机器学习以及统计学持续的不断深入
展开
-
hadoop集群监控
转载:http://www.cnblogs.com/huxi/archive/2010/06/26/1765808.html 方案:利用Sun JDK自带的jstat命令来周期轮询JVM的状态,记录日志,并上传到HDFS,为优化NameNode、DataNode、JobTracker、TaskTracer的JVM,提供数据支持。 分布式日志收集: 1) 采用Pyth原创 2012-07-07 22:24:30 · 1319 阅读 · 0 评论 -
HazelCast-Java实现的内存数据网格(In-Memory Data Grid)分析 一
http://www.schooner-ht.com/2011/05/23/hazelcast-java%E5%AE%9E%E7%8E%B0%E7%9A%84%E5%86%85%E5%AD%98%E6%95%B0%E6%8D%AE%E7%BD%91%E6%A0%BCin-memory-data-grid%E5%88%86%E6%9E%90-%E4%B8%80/什么是内存数据网格(以下简转载 2013-01-10 09:42:48 · 2161 阅读 · 0 评论 -
HDFS文件系统结构解析
http://www.360doc.com/content/13/0124/09/11532369_262082199.shtml NameNode节点是就是HDFS的大脑。想了解HDFS文件系统,必须了解大脑结构。 咱们就从NameNode节点开始。NameNode类中,关于HDFS文件系统的存储和管理都交给了FSNamesystem负责。下面介绍一下FSNamesystem的逻辑组成转载 2013-01-24 09:14:22 · 1269 阅读 · 0 评论 -
HazelCast-Java实现的内存数据网格(In-Memory Data Grid)分析 二
本小节主要讨论hazelcast如何使数据在各个节点被共享,以及如何做到自动负载均衡以最常用的Distributed Map为例子, 任意一个节点put的key和value在同集群中的其他节点中都能get到.首先在Node A 上?importcom.hazelcast.core.Hazelcast;importjava.util转载 2013-01-10 10:57:49 · 3372 阅读 · 1 评论 -
ZooKeeper简介
http://blog.csdn.net/shenlan211314/article/category/773415简介 ZooKeeper 是一个为分布式应用所设计的分布的、开源的协调服务。分布式的应用可以建立在同步、配置管理、分组和命名等服务的更高级别的实现的基础之上。 ZooKeeper 意欲设计一个易于编程的环境,它的文件系统使用我们所熟悉的目录树结构。 ZooKeepe转载 2013-01-24 15:32:42 · 1173 阅读 · 0 评论 -
HIVE UDF函数(一)
转载http://www.oratea.net/?p=944日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒转载 2013-02-06 15:10:55 · 1581 阅读 · 0 评论 -
Flume日志收集
一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数转载 2013-02-19 17:47:45 · 2196 阅读 · 0 评论 -
RCFile读写操作
http://smallboby.iteye.com/blog/1592531读取RCfileJob job = new Job(); job.setJarByClass(类.class); //设定输入文件为RcFile格式 job.setInputFormatClass(RCFileInputFormat.class); //普转载 2013-03-05 11:15:44 · 3442 阅读 · 0 评论 -
Hadoop文件格式
http://www.infoq.com/cn/articles/hadoop-file-format Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式,分析其特点、开销转载 2013-03-05 11:09:52 · 1327 阅读 · 0 评论 -
RCFile高效存储结构
http://kb.cnblogs.com/page/99479/ 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)转载 2013-03-06 07:36:26 · 1162 阅读 · 0 评论 -
hive create extenal table
create external table IF NOT EXISTS adv_struct_stock_week( uv string, freqflag int, sectionid int, areaid int, province string, city string, frequence bigint, stock bi原创 2013-08-19 14:25:36 · 1260 阅读 · 0 评论 -
ZooKeeper典型应用场景一览
http://rdc.taobao.com/team/jm/archives/1232ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的应用场景进行一个分门归类的介转载 2013-01-24 15:40:08 · 698 阅读 · 0 评论 -
HiveQL Transform脚本使用
http://spinlock.blog.51cto.com/607469/976824 在写HiveQL的时候,往往发现内置函数不够用,Hive支持用户自定义函数UDF,使用Java进行开发。很多时候这显得过于繁重。因而Hive中提供了Transform机制(基于hadoop streaming),这种机制相当于提供了一个脚本程序的入口,因此我们可以很方便的使用shell、转载 2012-11-13 17:22:20 · 1329 阅读 · 0 评论 -
Hive优化
Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(Column Pruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T WHERE e 其中,T 包含 5 个列 (a,b,c,d,e),列 c,d 将会被忽略,只会读取a, b, e 列转载 2012-09-07 10:02:33 · 765 阅读 · 0 评论 -
Hadoop集群升级手记
1 到站点http://archive.cloudera.com/redhat/cdh/3u4/RPMS/noarch/下载hadoop、hive等rpm包2 分发新软件包到个datanode scp -r hadoop-update-20120705 ip.$I:~/3 hadoop dfsadmin -upgradeProgress status 在此次更新之前,之前原创 2012-07-10 16:30:23 · 811 阅读 · 0 评论 -
分析和优化云集群性能
简介Hadoop 是一个灵活的开放源码 Java 框架,用于在一般硬件网络上执行大规模数据处理。它的思想来源于最初由 Google Labs 开发的 MapReduce 和 Global File System (GFS) 技术,由于具有高效、可靠和可伸缩的优点,它越来越流行了。Hadoop 现在是顶级 Apache 项目,IBM、Google、Yahoo! 和 Facebook 等许多公转载 2012-07-26 19:03:13 · 1284 阅读 · 0 评论 -
hadoop lzo文件的并行map处理
http://blog.csdn.net/fanshadoop/article/details/7853421Hadoop集群中启用了lzo后,还需要一些配置,才能使集群能够对单个的lzo文件进行并行的map操作,以提升job的执行速度。 首先,要为lzo文件创建index。下面的命令对某个目录里的lzo文件创建index:$HADOOP_HOME/bin/hadoop转载 2012-08-14 22:16:08 · 1342 阅读 · 0 评论 -
Hadoop Outputformat浅析
http://www.infoq.com/cn/articles/HadoopOutputFormatHadoop常常被用作大型数据处理生态系统中的一部分。它的优势在于能够批量地处理大量数据,并将结果以最好的方式与其他系统相集成。从高层次角度来看,整个过程就是Hadoop接收输入文件、使用自定义转换(Map-Reduce步骤)获得内容流,以及将输出文件的结果写回磁盘。上个月InfoQ展转载 2012-08-17 23:05:02 · 3266 阅读 · 0 评论 -
Hadoop的TaskTracker黑名单机制
Note:这里描述的黑名单是指jobtracker网页summary表格中显示的”Blacklisted Nodes",称之为集群黑名单. 在HADOOP-4305之前,Hadoop中每个job会维护一个TaskTracker黑名单,这里称之为job黑名单。简单来讲就是当一个job中有4个task曾经在某个tasktracker上失败过,则该job就将这个tasktracker加入自转载 2012-08-17 17:28:25 · 2576 阅读 · 0 评论 -
如何远程调试Hadoop代码
转:http://blog.csdn.net/nexus/article/details/6552098通常情况下,我们只是通过已经编译好的Hadoop jar包来运行Hadoop。如果我们更改了Hadoop的源码,希望对更改的代码进行远程调试,可以通过下面的步骤来进行: 1. 下载从Apache社区或者Cloudera网站上下载Hadoop的压缩包2. 在ec转载 2012-08-17 17:33:35 · 860 阅读 · 0 评论 -
Hadoop InputFormat浅析
随着越来越多的公司采用Hadoop,它所处理的问题类型也变得愈发多元化。随着Hadoop适用场景数量的不断膨胀,控制好怎样执行以及何处执行map任务显得至关重要。实现这种控制的方法之一就是自定义InputFormat实现。相关厂商内容百度技术沙龙第二十九期:易维护的前端框架(8月18日 周六)现在报名QCon杭州2012大会享8折优惠,团购更多折扣,10月25~27转载 2012-08-17 23:09:46 · 3082 阅读 · 0 评论 -
hadoop相关博客
俗话说,他山之石,可以攻玉。好好学习别人的blog,长足发展自己。博客:1 http://www.cnblogs.com/dlutxm/category/286837.html2 http://dongxicheng.org/data-mining/hadoop-sampling/3 http://blog.csdn.net/xiejava/article/month/2原创 2012-08-10 22:56:27 · 1283 阅读 · 0 评论 -
hadoop lzo安装
http://blog.csdn.net/joe_007/article/details/7848997最近我们部门在测试云计算平台hadoop,我被lzo折腾了三四天,累了个够呛。在此总结一下,也给大家做个参考。 操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4 安装lzo所需要软件包:gcc、ant、lzo、lzo转载 2013-10-10 16:50:50 · 1092 阅读 · 0 评论