Nosql
徴心
所谓文字,是承载语言的图像或符号。
展开
-
Sqoop 实际应用及样例
Sqoop 实际应用及自定query导出前置条件 已经成功安装配置Hadoop以及Sqoop和Mysql数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase。 示例如何将Oracle中的数据导出到Hdfs中,query参数中为导出的查询sql,如查询语句中有where 条件则最后追加 and \$CONDITIONS nohup /home/hadoop/sqoop/原创 2016-09-26 17:23:26 · 529 阅读 · 0 评论 -
Presto-自定义UDF实例(标量函数)
背景介绍这篇文章主要说明一下关于Presto中UDF的开发。这个实例中的自定方法的逻辑很简单,只是传如一个字符串,然后在字符串前面拼装一个Hello,只是为了说明如何去自己实现一个Scalar Function。下面是具体步骤及代码1.创建Maven工程pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmln...原创 2018-11-08 17:55:28 · 1486 阅读 · 0 评论 -
hadoop-2.6.0-cdh5.12.1源码编译支持Snappy
最近学习Kylin,但是在执行到第一个Example时,提示没有Snappy支持。之前没有配置过Snappy,在经过一系列的Google、百度后,并没有成功添加配置,最后还是通过编译源码的方式才将支持搞定,现在先说一下大体流程,因为尝试了很多种方式,只能提供大体思路下载源码 http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5...原创 2018-04-16 15:37:06 · 978 阅读 · 0 评论 -
Hive元数据对应关系Sql
众所周知hive的表关系存储在mysql中,由于Presto在创建Hive表时comment不能添加中文,今天有个需求需要添加中文注释,那就先了解一下hive中元数据的存储结构,下面是Sql,逻辑不复杂把逻辑记一下方便以后使用SELECT c.*FROM tbls tJOIN sds s ON t.sd_id=s.sd_idjoin columns_v2 c on s.cd_id=c.cd_i原创 2018-02-27 13:44:30 · 344 阅读 · 0 评论 -
Presto阅读源码记录(Sql执行过程)
前言 Presto源码主要从两部分入手阅读,presto-cli与presto-main分别对应的是client端的入口与server端的入口工程。 版本如下 <groupId>com.facebook.presto</groupId> <artifactId>presto-root</artifactId> <version>0.190-SNAPSHOT</version> presto原创 2018-02-01 20:31:32 · 3404 阅读 · 0 评论 -
Flume Error must not generate more than one output value per record field解决
今天在写一个Flume的程序,在经过一系列的配置之后发现抛出下面异常,造成Flume启动宕了 must not generate more than one output value per record field 在网上搜索了一下这个问题,只有网友粘的一些官网上的说明,但是并没有太理解是什么问题。 下面是官网的morphlineInterceptor的说明,大概意思就是morphlin原创 2016-12-12 18:41:14 · 878 阅读 · 0 评论 -
Hadoop基准测试
用hadoop也一年多了,只是知道一些MR以及基础Hadoop命令的使用,今天突发奇想如果我在原有集群的基础上添加了设备,对整个集群有什么性能上的提升,怎么评估? 针对这个问题我上网上搜了一下,发现hadoop在发布的时候本身就包含了一个基准测试的工具包用来进行集群的测试,下面简单说一下基准测试相关的使用方法.首先说一下基准测试的包的位置以及hadoop的版本,因为我在网上看到有发的帖子说明的路原创 2016-11-14 14:18:49 · 856 阅读 · 0 评论 -
HBase Rowkey的散列与预分区设计
问题导读: 1.如何防止热点? 2.如何预分区? 扩展: 为什么会产生热点存储?HBase中,表会被划分为1…n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的转载 2016-10-07 21:04:38 · 496 阅读 · 0 评论 -
Solr进行Distinct 获取Count
今天碰到一个问题,数据之前入solr的时候并没有计算条数,现在需要计算出某几个表中去重后的总数。 由于solr的ISearch并没有相关的Distinct功能.想到一个解决方案是用Solr的Facet分组进行GrupBy,但是因为Facet只能返回100条,而数据肯定大于100个分组.所有该方案PASS了。 后来在网上搜到Solr Count Distinct,这么一个东西,是Solr已经发布的原创 2016-10-22 18:11:42 · 5476 阅读 · 0 评论 -
Zookeeper学习(Curator使用)
Curator框架是最好用,最流行的zookeeper的客户端。 它有以下三个优点 1.提供了一套非常友好的操作API; 2. 提供一些高级特性(包括但不仅限于前篇文章中提到的)的封装 3.易测试 maven依赖如下<dependency> <groupId>org.apache.curator</groupId> <artifactId>curator-recip转载 2016-09-27 15:56:04 · 424 阅读 · 0 评论 -
zookeeper学习(高级特性)
CreateMode 在create的时候可以设置znode的类型 主要有四种: PERSISTENT (持续的,相对于EPHEMERAL,不会随着client的断开而消失)PERSISTENT_SEQUENTIAL(持久的且带顺序的)EPHEMERAL (短暂的,生命周期依赖于client session)EPHEMERAL_SEQUENTIAL (短暂的,带顺序的)Watcher转载 2016-09-27 15:46:43 · 489 阅读 · 0 评论 -
Windows环境ProtocolBuffer安装及入门使用
准备工作及所需软件 将protoc-2.5.0-win32.zip解压到系统任意目录, protobuf-java-2.5.0.jar放置到同一目录,并配置环境变量,执行下图命令,如果结果与下图一致则环境准备完成。 编写proto文件package S003;option java_package = "S003"; \\指定java的报名option java_outer_classna原创 2016-09-26 17:44:39 · 1947 阅读 · 0 评论 -
Kafka重启报Corrupt index found,index file
Kafka重启后启动报以下错误java.lang.IllegalArgumentException: requirement failed: Corrupt index found, index file (/home/sca_bj/jade/kafka_2.9.2-0.8.2.1/kafka-logs/test-0/00000000000000000009.index) has non-zero原创 2016-09-26 17:29:38 · 1287 阅读 · 0 评论 -
记一次 Apache Druid 查询速度优化
最近产品中有一个Druid的查询大概5s左右的响应,需要优化一下,这篇博文主要记录的就是这次优化的思路和具体方案背景表的格式为parquet,数据行数1400w+(由于我们的数据都是离线抽取的,已经做好聚合了),timestamp(所有数据都一样)segmentGranularity.period:P1D分析步骤其实就以我们本身的数据条数,应该不会造成这样的慢查询的,而且其他组的数据量也...原创 2019-07-18 18:37:42 · 4778 阅读 · 1 评论