关闭
当前搜索:

正则表达式30分钟入门

目录 跳过目录 本文目标如何使用本教程正则表达式到底是什么东西?入门测试正则表达式元字符字符转义重复字符类分枝条件反义分组后向引用零宽断言负向零宽断言注释贪婪与懒惰处理选项平衡组/递归匹配还有些什么东西没提到联系作者网上的资源及本文参考文献更新纪录 本文目标 30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。 如何使用本教...
阅读(869) 评论(0)

XML文档类型定义DTD

DTD概述 DTD用来定义XML文档的结构,它包含一系列规则说明,以确保XML文档的一致性和有效性 DTD定义了XML文档可用的词汇(元素和属性的名称)和结构: 元素名称,包括根元素 元素的属性及属性的数据类型和取值方式 子元素的名称、顺序、出现次数 元素是否拥有子元素,是否能拥有文本内容,等等 可以用DTD验证XML文档 发现书写错误(命名错误) 检查结构和顺序 检查是否...
阅读(491) 评论(0)

Hadoop参数汇总

Hadoop参数汇总 @(hadoop)[配置] linux参数 以下参数最好优化一下: 文件描述符ulimit -n用户最大进程 nproc (hbase需要 hbse book)关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器 JVM参数 JVM方面的优化项Hadoop Performance Tuning Guide Hadoo...
阅读(491) 评论(0)

hbase 租约超时及rpc超时出现的问题

随着数据量的增大,HIVE查询HBase的时候又出现了scan数据缓慢的问题,在HBase regionserver的log中出现了如下错误:   [plain] view plaincopy org.apache.hadoop.hbase.regionserver.LeaseException: lease '-88413693092487843...
阅读(2246) 评论(0)

Hbase配置项简介

Hbase配置项简介 转自网络 Hbase配置项(1) hbase.tmp.dir:本地文件系统的临时目录,默认是java.io.tmpdir/hbase?{user.name}; hbase.rootdir:hbase持久化的目录,被所有regionserver共享,默认${hbase.tmp.dir}/hbase,一般设置为hdfs://namenode.example.org:900...
阅读(563) 评论(0)

HBase性能优化方法总结(4):读表操作

来自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section3.html 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第三部分内容:读表操作相关的优化方法。 ...
阅读(376) 评论(0)

HBase性能优化方法总结(3):写表操作

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第二部分内容:写表操作相关的优化方法。 2. 写表操作 2.1 多HTable并发写 创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子: [java] view plain...
阅读(385) 评论(0)

HBase性能优化方法总结(2):表的设计

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第一部分内容:表的设计相关的优化方法。 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都...
阅读(397) 评论(0)

HBase性能优化方法总结(1):配置优化

配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管. 调优: ...
阅读(1110) 评论(0)

01 HBase基本概念和hbase shell常用命令用法

本文转载自:http://archive.cnblogs.com/a/2178064/ 1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据...
阅读(373) 评论(0)

hadoop 配置项的调优

dfs.block.size   决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.speculative.execution=true  mapred.reduce.tasks.speculative.execution=true 这是两个推测式执行的配置项,默认是true...
阅读(335) 评论(0)

使用ssh-keygen和ssh-copy-id三步实现SSH无密码登录

ssh-keygen  产生公钥与私钥对. ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,ssh-copy-id也能让你有到远程机器的home, ~./ssh , 和 ~/.ssh/authorized_keys的权利 第一步:在本地机器上使用ssh-keygen产生公钥私钥对 jsmith@local-host$ [Not...
阅读(694) 评论(0)

HDFS 的Trash回收站功能的配置、使用

文件的删除和恢复         和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就是在...
阅读(827) 评论(0)

Hadoop生成HFile直接入库HBase心得

转载请标明出处:http://blackwing.iteye.com/blog/1991380  hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdf...
阅读(2127) 评论(0)

hadoop 之DefaultStringifier

今天在读hadoop源码时发现DefaultStringifier这个类很有意思,主要是用来从configuration对象中get或set key、value键值对的时候使用。 具体原因不是很清楚,在网上google了下:  写MapReduce程序通常要传递各种各样的参数,选择合适的方式来传递参数既能提高工作效率,也可以避免bug的产生。根据参数的大小,可以粗略的分为以下几...
阅读(842) 评论(0)

Hadoop中的压缩Codec

作为输入             当压缩文件作为MapReduce的输入时,MapReduce将自动通过扩展名找到相应的Codec对其解压。 作为输出             当MapReduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapred.output.compression.codec为想要使用的codec的类名称,当...
阅读(712) 评论(0)

Hadoop 2.x的DistributedCache无法工作的问题

转自:http://www.codelast.com/?p=8131 现象:和这个帖子描述的一样,简单说来就是,在Hadoop 2.x上,用新的DistributedCache的API,在mapper中会获取不到这个cache文件。 下面就详细地描述一下新旧API的用法区别以及解决办法。 『1』旧API 将HDFS文件添加到distributed cache中: ...
阅读(1022) 评论(1)
    个人资料
    • 访问:1218091次
    • 积分:9322
    • 等级:
    • 排名:第2217名
    • 原创:120篇
    • 转载:222篇
    • 译文:1篇
    • 评论:147条
    最新评论