大数据
没有格子衬衫的程序员
某手机厂商全网搜索引擎开发者
展开
-
mapreduce内存溢出
1.简单了解mapreduce任务一个mapreduce任务会启动多种进程,首先需要启动一个客户端进程,客户端进程向rm申请资源启动am(MRAppMaster)进程,然后am根据输入分片向rm申请资源启动Map或Reduce进程。所以,当发生内存溢出时,必须先弄清楚是哪个进程内存溢出。2.客户端内存溢出在任务提交阶段的内存溢出,则是客户端内存溢出,在启动任务前,调整环境变量HA...原创 2020-02-27 16:27:57 · 1279 阅读 · 1 评论 -
HBase写入报错:org.apache.hadoop.hbase.RegionTooBusyException: Above memstore limit
大量写请求场景,经常出现以下错误:org.apache.hadoop.hbase.RegionTooBusyException: Above memstore limit xxx memstoreSize=1094171984, blockingMemStoreSize=1073741824原因:一般来说memstore超过hbase.hregion.memstore.flush....原创 2019-03-21 00:23:06 · 7655 阅读 · 3 评论 -
HBase RowKey设计和预分区
hbase读写性能优化一般可以从三个方面入手1、hbase服务端读写配置2、hbase客户端配置3、hbase表的设计本文从表设计的rowkey和预分区角度优化hbase读写性能,避免region读写热点问题。一、hbase数据读取方式先了解hbase读取数据方式:1、随机读:通过get方式,指定rowkey获取唯一记录2、局部顺序读(随机读+顺序读):通过scan...原创 2019-03-25 17:50:24 · 1539 阅读 · 0 评论 -
hbase集群合并
四个步骤:1.distcp迁移数据2.恢复hbase元数据hbase hbck3.停止原集群4.将原集群机器加入新的集群hadoop跨集群迁移数据hadoop distcp -m 100 hdfs://hostname:9000/hbase/data/default/* hdfs://hostname:9000/hbase/data/default/hadoop动态添...原创 2019-03-25 19:36:08 · 842 阅读 · 0 评论 -
HBase BulkLoad 导入大量数据
HBase常用写入数据方式1、使用MapReduce作业中的TableOutputformat类 //context.write(new ImmutableBytesWritable(Bytes.toBytes(rowkey)), put)2、使用客户端API //table.put(put)然而,这些方法并不总是最有效的方法。BulkLoadbulkload方式...原创 2019-07-19 16:15:14 · 2845 阅读 · 4 评论 -
Bulkload找不到分区文件 IllegalArgumentException: Can't read partitions file
问题使用bulkload方式导入数据到hbase时,mapper任务可能会发生找不到分区文件错误错误信息如下:Error: java.lang.IllegalArgumentException: Can't read partitions file at org.apache.hadoop.mapreduce.lib.partition.TotalOrderPartitio...原创 2019-07-19 16:58:41 · 2010 阅读 · 0 评论 -
Hadoop常用参数、命令笔记
查看压缩文件、普通文件hadoop fs -text filenamehadoop fs -text /user/vsearch/offline/bangxi/il/part-r-02998.snappy | headhadoop fs –cat filename //只能查看未压缩文件kill任务hadoop job -kill-task xxx迁...原创 2019-09-03 00:36:09 · 992 阅读 · 0 评论 -
HBase常用参数、命令笔记
设置读HBase Mapper多线程数量hbase.mapreduce.multithreadedmapper.threadshbase scanner 打印日志hbase.client.log.scanner.activity //是否打印日志hbase.mapreduce.log.scanner.rowcount //每scan多少条数据打印一次日志hbase...原创 2019-09-03 00:35:27 · 999 阅读 · 0 评论 -
HADOOP添加第三方jar依赖
每次运行hadoop jar命令时,会重新设置HADOOP_CLASS这个环境变量,并将这个变量的值赋给CLASSPATH,所以,只能通过设置HADOOP_CLASS这个环境变量来添加第三方的依赖,而设置CLASSPATH并不会生效。在MR任务在提交阶段和task运行阶段,主要会遇见两类依赖问题:依赖找不到和依赖冲突。提交阶段:1. 依赖找不到 通常两种解决方案将第三方j...原创 2019-09-02 17:22:06 · 2729 阅读 · 0 评论