理解 Flink 中的计算资源

本文所讨论的计算资源是指用来执行 Task 的资源,是一个逻辑概念。本文会介绍 Flink 计算资源相关的一些核心概念,如:Slot、SlotSharingGroup、CoLocationGroup、Chain等。并会着重讨论 Flink 如何对计算资源进行管理和隔离,如何将计算资源利用率最大化等...

2018-10-21 23:10:51

阅读数:17

评论数:0

使用Hive读写ElasticSearch中的数据

ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用,尤其是在添加数据的时候,可以使用分布式任务来添加索引数据,尤其是在数据平台上,很多数据存储在Hive中,使用Hive操作ElasticSearch中的数据,将极大的方便...

2018-07-04 15:09:20

阅读数:42

评论数:0

Strom本地模式Address family not supported by protocol family

解决方式: 1、先确定下本地hosts文件的127.0.0.1是否映射到localhost上因为storm-core中默认配置读的localhost映射 2、如果映射没问题需要在eclipse中设置下启动的参数: -Djava.net.preferIPv4Stack=true ...

2016-05-02 12:20:02

阅读数:1431

评论数:0

Maven with Scala

4.0.0 Utilities (Scala) com.hp.sw.sm.client Utilities module (Scala) utilities-scala org.scala-lang scala-library $...

2015-12-27 03:51:23

阅读数:397

评论数:0

scala + intellij idea 环境搭建及编译、打包

大数据生态圈中风头正旺的Spark项目完全是采用Scala语言开发的,不懂Scala的话,基本上就没法玩下去了。Scala与Java编译后的class均可以运行于JVM之上,就好象.NET中F#与C#的关系。下面进入正题: 1、下载scala sdk http://www.scala-lang...

2015-12-27 03:50:13

阅读数:1184

评论数:0

apache kafka监控系列-KafkaOffsetMonitor

apache kafka中国社区QQ群:162272557 概览 最近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不能集中看整个集群情况。或者一个cluster中broker列表,自己...

2015-11-20 16:23:45

阅读数:387

评论数:0

Hbase读操作

Hbase读操作 1、性能优化 在进行读数据时为了提高效率可以设置一次获取多少行,多少列,默认是一行一列。 通过 setCatch设置一次读取多少行 setBatch(batch);获取多少列 假设一个表中有5行 10列,默认情况下是每次读取只会拿到一行一列,所以在进行读取5行5列...

2015-11-14 01:03:42

阅读数:593

评论数:0

HBase基本数据操作详解【完整版,绝对精品】

引言 之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。 本文档 参考最新 (截止2014年7月16日)的 官方 Ref Guide、 Developer API编写。 所有代码均基于“hbase  0.96.2-hadoop2 ”版本编写,均实测通过。 欢迎转载...

2015-11-12 13:26:30

阅读数:845

评论数:0

HBase 常用Shell命令

进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户 ...

2015-11-12 13:22:04

阅读数:248

评论数:0

Hadoop 设置任务执行的队列以及优先级和其他 配置

作业提交到的队列:mapreduce.job.queuename 作业优先级:mapreduce.job.priority Pig版本: SET mapreduce.job.queuename root.etl.distcp; SET mapreduce.job.p...

2015-10-28 10:33:41

阅读数:3268

评论数:0

HBase中多Filter查询示例

ArrayList listForFilters = new ArrayList(); // 当前Filter Filter filter = null; for (String taskIDTmp : taskIDArray) {...

2015-10-22 15:53:20

阅读数:834

评论数:0

hbase分页查询

今天来分享下关于hbase分页查询的实现思路,自己已经应用了该hbase分页查询。 从所周知,hbase通过scan来扫描表,通过startKey,stopKey来确定范围,hbase官方提供了一个PageFilter来支持一次scan可以返回多少条数据即每页的行数。假如一页是10条,这样是第一页...

2015-10-22 15:52:38

阅读数:553

评论数:0

HBase rest

Base Rest 是建立在HBase java 客户端基础之上的,提供的web 服务。它存在的目的是给开发者一个更多的选择。 1.启动rest 服务   (1)hbase rest start       用默认的方式启动rest服务,端口是8080。   (2)hbase re...

2015-10-09 16:44:55

阅读数:377

评论数:0

HBase连接池 -- HTablePool

问题导读: 1.官方如何解释HTablePool被弃用的 2.使用哪个类,代替HTablePool? 3.使用HConnectionManager如何创建表? 1.连接 HTable是HBase的client,负责从meta表中找到目标数据所在的RegionSer...

2015-09-21 00:15:06

阅读数:1559

评论数:0

通过Java Api与HBase交互(转)

/** *HBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要,本文将继续前两篇文章中blog表的示例,介绍常用的Api。 * **/ import java.io.IOException; import org.apache.had...

2015-09-17 14:15:28

阅读数:259

评论数:0

HBase Java API类介绍

几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) HTableDescriptor 列族...

2015-09-17 14:13:59

阅读数:287

评论数:0

Hive 的collect_set使用详解

Hive 的collect_set使用详解

2015-09-07 10:30:25

阅读数:36204

评论数:2

HBase性能优化方法总结(三):读表操作

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。 下面是本文总结的第三部分内容:读表操作相关的优化方法。 http://www.cnblogs.com/panfeng412/archive/201...

2015-08-27 11:02:38

阅读数:400

评论数:0

优化Hbase查询速度

环境:suse  8G内存,8核,12T磁盘           hbase master 占一台,其他7台作为hbase的region server 注意:此处不讨论hadoop 情景:           我们有7亿的数据,需要做查询操作,需要从1.7亿的表中查找一个字段,并写...

2015-08-25 14:03:22

阅读数:2055

评论数:0

Hive数据导入、sqoop数据导入导出

在进行数据统计的时候经常会遇到把HIVE中的表数据进行导入导出处理,或者是将查询结果导入到另外一个地方,一般是通过Sqoop来进行Mysql和Hdfs进行数据交互。 1、通过一个sql把算出来的结果导入到一张数据表里面,一般的做法是把数据导入到Hdfs中,然后通过和目标表建立分区,把数据lo...

2015-07-30 11:19:00

阅读数:840

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭