分布式
徐汉彬-技术
原腾讯研发团队Leader,T3-3级工程师,曾负责QQ会员、鹅漫U品、AMS活动运动平台平台(高峰期日请求13亿)和腾讯信息流商业化推荐系统等项目的架构和研发工作。
展开
-
Hadoop-- 海量文件的分布式计算处理方案(转)
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或原创 2017-03-16 22:22:24 · 359 阅读 · 0 评论 -
HBase编程api介绍(转)
HBaseConfiguration是每一个hbase client都会使用到的对象,它代表的是HBase配置信息。它有两种构造方式:public HBaseConfiguration()public HBaseConfiguration(final Configuration c)默认的构造方式会尝试从hbase-default.xml和hbase-site.xml中读取配置。如果classpa原创 2017-03-16 22:24:13 · 389 阅读 · 0 评论 -
Twitter Storm:开源实时Hadoop[转载]
Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。 Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”原创 2017-03-16 22:24:02 · 442 阅读 · 0 评论 -
HBase配置LZO压缩
HDFS: hadoop:hadoop-0.20.2-cdh3u0HBase: HBase:0.90.3 安装过程: 1、安装lzoemerge dev-libs/lzo 2.1 下载download from: Java代码 wget http://hadoop-gpl-compression.apache-extras.org.codespot.com/files/hadoop-gpl-原创 2017-03-16 22:23:59 · 1785 阅读 · 0 评论 -
hbase中对deadserver处理的问题
hbase在一个regionServer死掉后,即使重启了这个server,deadlist中也不会去掉原先死去的deadserver。 例如: Java代码 hbase shell >status 5 servers, 0 dead, 6.2000 average load 停掉其中一个节点 Java代码 hbase-daemon.sh stop regionserver 然后原创 2017-03-16 22:23:50 · 4410 阅读 · 0 评论 -
Hbase命令
HBase的许多代码是重用HADOOP的代码。它与我们常用的数据库的最大区别就是列存储以及无数据类型,所有数据都以String类型进行存储。而且,假如hbase table里面有5个字段,但是实际上只有4个字段有值,另一个为NULL,那么这个字段是不占存储空间的,相比较而言,这点比较好罢。 HBase是一个开源的、分布式的、面向列的存储系统。源于论文《Bigtable:一个结构化数据的分布原创 2017-03-16 22:23:39 · 343 阅读 · 0 评论 -
HBase安装与配置
HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的,并适合于存储超大型松散数据。HBase适合于实时,随机对Big数据进行读写操作的业务环境。关于HBase的更多介绍请参见HBase项目官网。 本文环境与上一讲--完全分布式Hadoop集群配置一致。HBase版本是0.20.6。 HRegionServer&HQuorumPeer:dm1,IP原创 2017-03-16 22:23:36 · 362 阅读 · 0 评论 -
Hive入门(转)
Hive 是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer原创 2017-03-16 22:23:16 · 272 阅读 · 0 评论 -
Hadoop “No space left on device”问题解决方法
在streaming作业中用-file选项运行一个分布式的超大可执行文件(例如,3.6G)时,我得到了一个错误信息“No space left on device”。如何解决? 配置变量stream.tmpdir指定了一个目录,在这个目录下要进行打jar包的操作。stream.tmpdir的默认值是/tmp,你需要将这个值设置为一个有更大空间的目录:-jobconf stream.tmpdir=/原创 2017-03-16 22:23:13 · 2012 阅读 · 0 评论 -
Hadoop公平调度器指南(转)
最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。原创 2017-03-16 22:23:04 · 528 阅读 · 0 评论 -
Hive的安装和配置(转)
一、hive版本及下载1、首先清楚集群上hadoop的版本,hive的版本需要与hadoop的版本一致。目前(2011年6月20日),集群上hadoop的版本是hadoop-0.20.2-CDH3B4,与之对应的hive版本也应该是CDH3B4。同时,也要考虑到测试环境的机器类型,目前的机器类型是5u4。查询hadoop版本的hive的网址为 https://ccp.cloudera.com/di原创 2017-03-16 22:22:50 · 229 阅读 · 0 评论 -
Derby的安装和配置(转)
Derby是用纯Java写的一个事务、关系数据库,只占用很少的磁盘空间。Derby起源于CloudScape,后者是IBM从Informix获取的产品。在2004年,IBM决定将CloudScape开放源代码,使之成为Apache Software Foundation下的一个孵卵器项目,其名称为Derby。使用Derby的实际好处在于它需要最少的管理以及小的资源占用。磁盘上的数据库比较小,对于基原创 2017-03-16 22:22:44 · 1725 阅读 · 0 评论 -
hadoop配置方法(转)
看了这么久的书,第一次配置,本来以为会很顺利,结果整整配置了一天,好算在群里的兄弟和通过百度搞定。现在记录流水日志36 master203 204 205 206 207 208 218 是slave所需软件包 创建hadoop用户和组groupadd hadooptail /etc/group #看新添加的组的IDuseradd hadoop -g 502passwd hadoop #密码是原创 2017-03-16 22:22:41 · 280 阅读 · 0 评论 -
hbase的查询scan功能注意点(setStartRow, setStopRow)
hbase的scan查询功能注意项:Scan scan = new Scan();scan.setStartRow(“5193:”);scan.setStopRow(“5194:”);ResultScanner result = table.getScanner(scan);for (Result r : result) { get it......}查找 原本期望:从下列中5193:1519原创 2017-03-16 22:24:16 · 3974 阅读 · 0 评论