大数据处理
文章平均质量分 64
colie_li
coding
展开
-
理解 Flink 中的计算资源
本文所讨论的计算资源是指用来执行 Task 的资源,是一个逻辑概念。本文会介绍 Flink 计算资源相关的一些核心概念,如:Slot、SlotSharingGroup、CoLocationGroup、Chain等。并会着重讨论 Flink 如何对计算资源进行管理和隔离,如何将计算资源利用率最大化等等。理解 Flink 中的计算资源对于理解 Job 如何在集群中运行的有很大的帮助,也有利于我们更透彻...转载 2018-10-21 23:10:51 · 369 阅读 · 0 评论 -
HBase 常用Shell命令
进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami表的管转载 2015-11-12 13:22:04 · 357 阅读 · 0 评论 -
HBase连接池 -- HTablePool
问题导读:1.官方如何解释HTablePool被弃用的2.使用哪个类,代替HTablePool?3.使用HConnectionManager如何创建表?1.连接HTable是HBase的client,负责从meta表中找到目标数据所在的RegionServers,当定位到目标RegionServers后,client直接和RegionServers交互,转载 2015-09-21 00:15:06 · 3436 阅读 · 0 评论 -
HBase rest
Base Rest 是建立在HBase java 客户端基础之上的,提供的web 服务。它存在的目的是给开发者一个更多的选择。1.启动rest 服务 (1)hbase rest start 用默认的方式启动rest服务,端口是8080。 (2)hbase rest start 8585 这种方式以端口8585方式启动。 (3)以daem转载 2015-10-09 16:44:55 · 617 阅读 · 0 评论 -
HBase Java API类介绍
几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)Put列修饰符(Column Qualifier)转载 2015-09-17 14:13:59 · 387 阅读 · 0 评论 -
Hive 的collect_set使用详解
Hive 的collect_set使用详解原创 2015-09-07 10:30:25 · 78478 阅读 · 6 评论 -
一张图告诉你是需要 SQL 还是 Hadoop
译序很多朋友问时下如火如荼的 Hadoop 是否适合引进我们自己的项目,什么时候用 SQL,什么时候用 Hadoop,它们之间如何取舍?Aaron Cordova 用一张图来回答你这个问题,对于不同的数据场景,如何选取正确的数据存储处理工具进行了详细描述。Aaron Cordova 是美国大数据分析及架构专家,Koverse CTO 及联合创始人。原文正文Twitter 上的转载 2015-07-23 23:36:26 · 835 阅读 · 0 评论 -
HBase性能优化方法总结(三):读表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第三部分内容:读表操作相关的优化方法。http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section1.html3转载 2015-08-27 11:02:38 · 506 阅读 · 0 评论 -
Hive数据导入、sqoop数据导入导出
在进行数据统计的时候经常会遇到把HIVE中的表数据进行导入导出处理,或者是将查询结果导入到另外一个地方,一般是通过Sqoop来进行Mysql和Hdfs进行数据交互。1、通过一个sql把算出来的结果导入到一张数据表里面,一般的做法是把数据导入到Hdfs中,然后通过和目标表建立分区,把数据load到目标表中;如: beeline -u "jdbc:hive2://test.com:原创 2015-07-30 11:19:00 · 1255 阅读 · 0 评论 -
HBase基本数据操作详解【完整版,绝对精品】
引言之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。本文档 参考最新 (截止2014年7月16日)的 官方 Ref Guide、 Developer API编写。所有代码均基于“hbase 0.96.2-hadoop2 ”版本编写,均实测通过。欢迎转载,请注明来源:http://blog.csdn.net/u010967382转载 2015-11-12 13:26:30 · 1052 阅读 · 0 评论 -
Hadoop 设置任务执行的队列以及优先级和其他 配置
作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priorityPig版本:SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priority HIGH;Hive版本:SET mapreduce.job.q转载 2015-10-28 10:33:41 · 6479 阅读 · 0 评论 -
Hbase读操作
Hbase读操作1、性能优化在进行读数据时为了提高效率可以设置一次获取多少行,多少列,默认是一行一列。通过setCatch设置一次读取多少行setBatch(batch);获取多少列假设一个表中有5行 10列,默认情况下是每次读取只会拿到一行一列,所以在进行读取5行5列的数据时会进行多次RPC调用。如果我们设置了批量获取行数和列数会减少RPC的调用次数,setCat原创 2015-11-14 01:03:42 · 805 阅读 · 0 评论 -
使用Hive读写ElasticSearch中的数据
ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用,尤其是在添加数据的时候,可以使用分布式任务来添加索引数据,尤其是在数据平台上,很多数据存储在Hive中,使用Hive操作ElasticSearch中的数据,将极大的方便开发人员。这里记录一下Hive与ElasticSearch整合,查询和添加数据的配置使用过程。基于Hi...转载 2018-07-04 15:09:20 · 349 阅读 · 0 评论 -
通过Java Api与HBase交互(转)
/** *HBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要,本文将继续前两篇文章中blog表的示例,介绍常用的Api。 * **/import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.had原创 2015-09-17 14:15:28 · 368 阅读 · 0 评论 -
hbase分页查询
今天来分享下关于hbase分页查询的实现思路,自己已经应用了该hbase分页查询。从所周知,hbase通过scan来扫描表,通过startKey,stopKey来确定范围,hbase官方提供了一个PageFilter来支持一次scan可以返回多少条数据即每页的行数。假如一页是10条,这样是第一页还好,但是第二页呢,如果不改变PageFilter的pageSize,那返回的还是第一页的数据,如果原创 2015-10-22 15:52:38 · 965 阅读 · 0 评论 -
HBase中多Filter查询示例
ArrayList listForFilters = new ArrayList(); // 当前Filter Filter filter = null; for (String taskIDTmp : taskIDArray) { if ((null != taskIDTmp) && (!"".equals原创 2015-10-22 15:53:20 · 1177 阅读 · 0 评论 -
Strom本地模式Address family not supported by protocol family
解决方式:1、先确定下本地hosts文件的127.0.0.1是否映射到localhost上因为storm-core中默认配置读的localhost映射2、如果映射没问题需要在eclipse中设置下启动的参数: -Djava.net.preferIPv4Stack=true使jdk去走iPv4原创 2016-05-02 12:20:02 · 2636 阅读 · 0 评论 -
scala + intellij idea 环境搭建及编译、打包
大数据生态圈中风头正旺的Spark项目完全是采用Scala语言开发的,不懂Scala的话,基本上就没法玩下去了。Scala与Java编译后的class均可以运行于JVM之上,就好象.NET中F#与C#的关系。下面进入正题:1、下载scala sdkhttp://www.scala-lang.org/download/ 直接到这里下载sdk,目前最新的稳定版为2.11.7,下载后解压就行转载 2015-12-27 03:50:13 · 1318 阅读 · 0 评论 -
Maven with Scala
4.0.0 Utilities (Scala) com.hp.sw.sm.client Utilities module (Scala) utilities-scala org.scala-lang scala-library ${scala.version} org.scala-lang转载 2015-12-27 03:51:23 · 529 阅读 · 0 评论 -
apache kafka监控系列-KafkaOffsetMonitor
apache kafka中国社区QQ群:162272557概览最近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不能集中看整个集群情况。或者一个cluster中broker列表,自己写web-console比较耗时耗力,用原型工具画了一些管理界面东西,关键自己也不前端方面技术,这方面转载 2015-11-20 16:23:45 · 573 阅读 · 0 评论 -
Hive日期格式转换用法
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,'转载 2015-07-30 10:38:55 · 1290 阅读 · 0 评论 -
Mysql或者Hive数据行变成列
对于mysql / hive 再进行统计的时候如果需要行变成列,可以使用函数CASE 字段a WHEN 值b THEN c [WHEN d THEN e]* [ELSE f] END 当字段a=值b时,返回c(如果是字段的话则代表该字段的值,也可以是一个固定值 加单引号就可以);当a=d时,返回e,否则返回f。如:数据表结构:(举例说明,id有重复的)原创 2015-07-29 20:17:29 · 1149 阅读 · 0 评论 -
你的flume-ng的第一篇博客
我在flume-ng 1.1.0 孵化版的时候就开始接触了,自己也搞了一段时间,没事扯扯心得吧。 先说在前面,flume-ng 后面的版本,我没仔细读change log ,比较农民 , 不知道新添了哪些特别NB的功能,有说错的地方,还请多多指教。 首先,介绍一个非常全的文章,http://flume.apache.org/FlumeUserGuide.html 看了这篇文章,基本转载 2015-05-24 16:06:38 · 515 阅读 · 0 评论 -
Storm中Trident流合并的例子demo
流的合并操作,是指根据两个流的关联条件将两个流合并成一个流,然后在进行后面的处理操作,如果使用Spout和Bolt这种编程模型的话写起来会比较困难和繁琐,因为要设置缓冲区来保存第一次过来的数据,后续还要进行两者的比较,使用Trident应用起来比较方便,对原来的编程模型进行了一定的抽象。代码实例: 需求: 两个spout: spout1:里面的数据是 nam原创 2015-04-16 18:49:50 · 3280 阅读 · 0 评论 -
使用Storm实现实时大数据分析
摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获转载 2015-04-14 23:10:19 · 763 阅读 · 0 评论 -
Storm中new Value 与input.getString(int i)
刚开始接触对着两个概念比较模糊,不明白input.gvetString(int i)中的i具体是什么的索引,看下源码就非常简单了new Valuespublic class Values extends ArrayList{ public Values() { } public Values(Object... vals) {原创 2015-04-14 11:47:40 · 1907 阅读 · 0 评论 -
Strom实时计算--简述
Strom和hadoop的区别: 全量数据处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大、自动容错等优点,在海量数据处理上 得到了广泛的使用。但是,hadoop不擅长实时计算。这时需要strom实时计算系统Strom架构Storm集群由一个主节点和多个工作节点组成。主节点运行了一个名为“Nimbus”的守护进程,用于分配代码、布置任务原创 2015-04-13 17:07:12 · 1757 阅读 · 0 评论 -
Storm常见模式——流聚合
流聚合(stream join)是指将具有共同元组(tuple)字段的数据流(两个或者多个)聚合形成一个新的数据流的过程。从定义上看,流聚合和SQL中表的聚合(table join)很像,但是二者有明显的区别:table join的输入是有限的,并且join的语义是非常明确的;而流聚合的语义是不明确的并且输入流是无限的。数据流的聚合类型跟具体的应用有关。一些应用把两个流发出的所有的tupl转载 2015-04-15 10:27:37 · 898 阅读 · 0 评论 -
twitter storm常用命令
提交Topologies命令格式:storm jar 【jar路径】 【拓扑包名.拓扑类名】 【拓扑名称】样例:storm jar /storm-starter.jar storm.starter.WordCountTopology wordcountTop#提交storm-starter.jar到远程集群,并启动wordcountTop拓扑。停止Topologies命令格式:转载 2015-04-14 18:21:16 · 484 阅读 · 0 评论 -
Storm实战常见问题及解决方案
该文档为实实在在的原创文档,转载请注明:http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html类型详细备注该文档是群里几个朋友在storm实战中遇到的一些问题,及其对应解决办法。 相关描述² 其他相关文档请参考新浪博客http://blo转载 2015-04-14 18:28:57 · 601 阅读 · 0 评论 -
flume的自定义配置
#定义agent名, source、channel、sink的名称a4.sources = r1a4.channels = c1a4.sinks = k1#具体定义sourcea4.sources.r1.type = spooldira4.sources.r1.spoolDir = /home/hadoop/logs#具体定义channela4.channels.c1.type原创 2015-05-24 16:49:14 · 872 阅读 · 0 评论 -
HIve的JavaAPI操作
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口,直接进入正题。 1、Hive 安装:转载 2015-05-24 17:29:54 · 709 阅读 · 0 评论 -
Hive中的数据分区
首先认识什么是分区Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成更下的数据集。1. 如何定义分区,创建分区 hive> create table test(name string,sex int) partitioned by (birth string, age string);Time tak转载 2015-05-24 22:13:54 · 581 阅读 · 0 评论 -
优化Hbase查询速度
环境:suse 8G内存,8核,12T磁盘 hbase master 占一台,其他7台作为hbase的region server注意:此处不讨论hadoop情景: 我们有7亿的数据,需要做查询操作,需要从1.7亿的表中查找一个字段,并写入到7亿数据的表中。 这里为了描述方便,将7亿数据的表称为:A表,1.7亿数据的转载 2015-08-25 14:03:22 · 2758 阅读 · 0 评论 -
hive与hbase整合过程
hive与hbase整合过程---coco# by coco# 2014-07-25 本文主要实现一下目标: 1. 在hive中创建的表能直接创建保存到hbase中。 2. hive中的表插入数据,插入的数据会同步更新到hbase对应的表中。 3. hbase对应的列簇值变更,也会在Hive中对应的表中变更。 4. 实现了多列,多列簇的转转载 2015-07-29 19:32:12 · 818 阅读 · 0 评论 -
hbase的export与import工具
hbase提供了导出表的方案,将指定的表导出到HDFS或本地,这样方便了备份或数据转移。 最快的方式是通过mapreduce来完成这件事,需要在hbase的conf中添加mapred-site.xml:Java代码 mapred.job.tracker 192.168.0.1:9001 hadoop.tmp.dir /tmp/hadoop-${user.name}转载 2015-07-29 19:32:32 · 832 阅读 · 0 评论 -
Linux里如何查找文件内容
Linux查找文件内容的常用命令方法。 从文件内容查找匹配指定字符串的行:$ grep "被查找的字符串" 文件名例子:在当前目录里第一级文件夹中寻找包含指定字符串的.in文件grep "thermcontact" */*.in从文件内容查找与正则表达式匹配的行:$ grep –e “正则表达式” 文件名查找时不区分大小写:$ grep –i "被查找转载 2015-07-29 15:11:19 · 1220 阅读 · 0 评论 -
hive与hbase整合过程
hive与hbase整合过程---coco# by coco# 2014-07-25 本文主要实现一下目标: 1. 在hive中创建的表能直接创建保存到hbase中。 2. hive中的表插入数据,插入的数据会同步更新到hbase对应的表中。 3. hbase对应的列簇值变更,也会在Hive中对应的表中变更。 4. 实现了多列,多列簇的转转载 2015-07-29 17:13:59 · 643 阅读 · 0 评论 -
Hive的insert操作
insert 语法格式为:1. 基本的插入语法:insert overwrite table tablename [partition(partcol1=val1,partclo2=val2)] select_statement;insert into table tablename [partition(partcol1=val1,partclo2=val2)] select转载 2015-07-28 16:15:35 · 8754 阅读 · 0 评论 -
hive常用操作
添加分区ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例ALTER TABLE table_name ADD IF NOT EXISTS PARTITION (dt='20130101') LOCATION '/user/hadoop/warehouse/table_name/转载 2015-07-08 20:31:08 · 573 阅读 · 0 评论