2017年10月_卡奥斯道

原创 redis操作以及5种数据类型string，hash，list，set，zset

Redis支持五种数据类型：查看key的类型（String，hash...）命令：type keystring(字符串)设置一个值：set命令set name hadoop在设置的时候可以指定当前key的过期时间set key value EX seconds ---->指定key之后seconds的存活时间，seconds之后消失获取一个值：get命令GETR

2017-10-15 18:00:24 1288

原创 redis简介及安装（集群）

1.简介Redis是一个开源（BSD许可），内存存储的数据结构服务器，可用作数据库，高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合，位图，hyperloglogs等数据类型。内置复制、Lua脚本、LRU收回、事务以及不同级别磁盘持久化功能，同时通过Redis Sentinel提供高可用，通过Redis Cluster提供自动分区。简言之，Redis是一

2017-10-15 17:54:35 345

原创 hbase行健设计原则

行健的设计问题行健的热点问题是由于行健相似、连续且数据量过大操作成单region的数据量过大，进而影响读写效率行健应该尽量的随机、不要出现连续行健。常见的行健设计就是，比如手机号码倒置+时间戳，比如随机前缀+关系型数据库中的主键（以存放在mr中电信日志案例为例）因为hbase提供的查询内容非常非常low，但是所有关于hbase的查询只能通过rowkey，所以在设计行

2017-10-15 17:51:53 2811

原创 HBase和Phoenix的整合

安装Phoenix约定安装到/opt目录下面解压：soft]# tar -zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz -C ../重命名 opt]# mv phoenix-4.7.0-HBase-1.1 phoenix拷贝lib目录下面jar包到regionserver机器的lib($HBASE_HOME/lib)目录phoenix]#

2017-10-15 17:48:58 2045

原创使用Hive来访问HBase

启动hive，进入hive的终端hive --auxpath /opt/hive/lib/hive-hbase-handler-2.1.0.jar,/opt/hive/lib/zookeeper-3.4.6.jar --hiveconf hbase.master=hadoop01:16010 --hiveconf hbase.zookeeper.quorum=hadoop01,hadoop02

2017-10-15 17:46:47 1308

原创读取hive文件并将数据导入hbase

转：http://www.cnblogs.com/zhanggl/p/5658517.htmlpackage cn.tansun.bd.hbase;import java.io.IOException;import java.net.URI;import java.util.List;import java.util.Map;import org.apache.hado

2017-10-15 17:41:13 1287

转载 Spark上通过BulkLoad快速将海量数据导入到Hbase

转：https://www.iteblog.com/archives/1891.html我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法，而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用Bulk Load

2017-10-15 15:43:24 1258

转载 Java/大数据常见面试

1-3）java 的io类的图解 1-4）对象与引用对象的区别对象就是好没有初始化的对象，引用对象即使对这个对象进行了初始化，这个初始化可以使自己的直接new的也可以是直接其他的赋值的，那么背new或者背其他赋值的我们叫做是引用对象，最大的区别于 1-5）谈谈你对反射机制的理解及其用途？反射有三种获取的方式，分别是：forName / getClass / 直接使用c

2017-10-15 14:47:26 8468

转载海量数据处理-分而治之和hash映射

转：http://blog.csdn.net/yangquanhui1991/article/details/52172768什么是Hash Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的

2017-10-15 11:56:23 418

原创海量数据去重之SimHash算法简介和应用

转：http://blog.csdn.net/u010454030/article/details/49102565SimHash是什么SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling 》中提到的一种指纹生成算法或者叫指纹提取算法，被Google广泛应用在亿级的网页去重的Job中，作为l

2017-10-15 11:54:21 1088

转载 MapReduce+HDFS，海量数据去重的五大策略

随着存储数据信息量的飞速增长，越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。重复数据删除往往是指消除冗余子文件。不同于压缩，重复数据删除对于数据本身并没有改变，只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。举个简单的例子：在专门为电信运营商定制的呼叫详单去

2017-10-15 11:51:46 464

转载 flume拦截器

1.http://blog.csdn.net/xiao_jun_0820/article/details/38111305对于flume拦截器,我的理解是：在app(应用程序日志)和 source 之间的，对app日志进行拦截处理的。也即在日志进入到source之前，对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有：Timestamp Interceptor

2017-10-11 22:30:23 864

转载 Hive之UDF,UDAF自定义函数

当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数。UDF用户自定义函数（user defined function)–针对单条记录。创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函数 8、h

2017-10-10 23:50:15 867

原创 hash取模将大文件转成小文件，可排序，可求TopN

声明：参考某文章代码（记不住地址了），将其代码修改为按hash将数据分到不同文件中import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOExc

2017-10-10 23:46:06 1857

转载 Es优化（二）

亿级规模的ES查询优化实战能用filter就不用query filter拿到相应的doc后不计算score不用排序 query会对符合条件的doc计算score并进行排序 filter的查询速度比query快很多增加相关cache的配置 indices.cache.filter.size: 30% indices.fielddata.cache.si

2017-10-10 13:10:11 1354

转载 SQL之decode，sign

decode()函数简介：主要作用：将查询结果翻译成其他值（即以其他形式表现出来，以下举例说明）；使用方法：Select decode（columnname，值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值）From talbenameWhere …其中columnname为要选择的table中所定义的column，·含义解释：

2017-10-09 22:27:02 526

转载 SQL常见面试题

1.用一条SQL 语句查询出每门课都大于80 分的学生姓名name kecheng fenshu张三语文 81张三数学 75李四语文 76李四数学 90王五语文 81王五数学 100王五英语 90A

2017-10-09 22:24:49 1662 3

原创 Es优化

1.创建优化调大系统的"最大打开文件数",建议32K甚至是64Kulimit -a (查看)ulimit -n 32000(设置)修改配置文件调整ES的JVM内存大小1：修改bin/elasticsearch.in.sh中ES_MIN_MEM和ES_MAX_MEM的大小，建议设置一样大，避免频繁的分配内存，根据服务器内存大小，一般分配60%左右(默认 256M)2：如果使

2017-10-09 10:49:08 459

原创自定义flume-source

package com.bigdata.flume;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.EventDeliveryException;import org.apache.flume.PollableSource;import org.apache.fl

2017-10-08 22:29:22 820

转载自定义MapReduce导入HDFS数据到HBase

1.使用Map+Reduce方式public class MapReduceImport { /** * Mapper */ static class HMapper extends MapperLongWritable, Text, LongWritable, Text> { Text v2 = new Text();

2017-10-08 22:16:07 327

转载 HBase数据导出到HDFS

一、目的把hbase中某张表的数据导出到hdfs上一份。实现方式这里介绍两种：一种是自己写mr程序来完成，一种是使用hbase提供的类来完成。二、自定义mr程序将hbase数据导出到hdfs上2.1首先看看hbase中t1表中的数据：2.2mr的代码如下：比较重要的语句是job.setNumReduceTasks(0);//为什么要设

2017-10-08 21:49:28 2590 2

转载 Spark的性能调优

转：http://mb.yidianzixun.com/home?page=article&id=0C6hBEKe&up=211基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stag

2017-10-08 13:18:55 930

原创 flume之source，channel，sink

从官网整理的

2017-10-07 20:10:10 292

原创自定义fulme---sink至mysql

实现功能：采集 nc hadoop01 44444 的数据，将nc的数据保存至mysql数据库（主要实现自定义sink至mysql,hadoop01为机器名）若nc 没安装，请先安装netcat1.代码如下：package com.bigdata.flume;import com.google.common.base.Preconditions;import com.google

2017-10-07 17:59:50 487

原创 Alluxio使用场景

详见：http://blog.csdn.net/alluxio/article/details/59536999特点：多个Spark job以内存级速度共享相同的数据（可以做到多个job共享一个RDD）

2017-10-07 13:57:53 2869

转载 ElasticSearch 常用的查询过滤语句

转：http://www.cnblogs.com/ghj1976/p/5293250.htmlquery 和 filter 的区别请看： http://www.cnblogs.com/ghj1976/p/5292740.html Filter DSL term 过滤term主要用于精确匹配哪些值，比如数字，日期，布尔值或 not_analyzed

2017-10-07 11:56:28 487

卡奥斯道的博客