自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

卡奥斯道的博客

追逐梦想的心

  • 博客(26)
  • 收藏
  • 关注

原创 redis操作以及5种数据类型string,hash,list,set,zset

Redis支持五种数据类型:查看key的类型(String,hash...)命令:type keystring(字符串)设置一个值:set命令set name hadoop在设置的时候可以指定当前key的过期时间set key value EX seconds ---->指定key之后seconds的存活时间,seconds之后消失获取一个值:get命令GETR

2017-10-15 18:00:24 1288

原创 redis简介及安装(集群)

1.简介Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合,位图,hyperloglogs等数据类型。内置复制、Lua脚本、LRU收回、事务以及不同级别磁盘持久化功能,同时通过Redis Sentinel提供高可用,通过Redis Cluster提供自动分区。   简言之,Redis是一

2017-10-15 17:54:35 345

原创 hbase行健设计原则

行健的设计问题行健的热点问题是由于行健相似、连续且数据量过大操作成单region的数据量过大,进而影响读写效率行健应该尽量的随机、不要出现连续行健。常见的行健设计就是,比如手机号码倒置+时间戳,比如随机前缀+关系型数据库中的主键(以存放在mr中电信日志案例为例)因为hbase提供的查询内容非常非常low,但是所有关于hbase的查询只能通过rowkey,所以在设计行

2017-10-15 17:51:53 2811

原创 HBase和Phoenix的整合

安装Phoenix约定安装到/opt目录下面解压:soft]# tar -zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz -C ../重命名 opt]# mv phoenix-4.7.0-HBase-1.1 phoenix拷贝lib目录下面jar包到regionserver机器的lib($HBASE_HOME/lib)目录phoenix]#

2017-10-15 17:48:58 2045

原创 使用Hive来访问HBase

启动hive,进入hive的终端hive --auxpath /opt/hive/lib/hive-hbase-handler-2.1.0.jar,/opt/hive/lib/zookeeper-3.4.6.jar --hiveconf hbase.master=hadoop01:16010 --hiveconf hbase.zookeeper.quorum=hadoop01,hadoop02

2017-10-15 17:46:47 1308

原创 读取hive文件并将数据导入hbase

转:http://www.cnblogs.com/zhanggl/p/5658517.htmlpackage cn.tansun.bd.hbase;import java.io.IOException;import java.net.URI;import java.util.List;import java.util.Map;import org.apache.hado

2017-10-15 17:41:13 1287

转载 Spark上通过BulkLoad快速将海量数据导入到Hbase

转:https://www.iteblog.com/archives/1891.html我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load

2017-10-15 15:43:24 1258

转载 Java/大数据常见面试

1-3)java 的io类的图解 1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的直接new的也可以是直接其他的赋值的,那么背new或者背其他赋值的我们叫做是引用对象,最大的区别于 1-5)谈谈你对反射机制的理解及其用途?反射有三种获取的方式,分别是:forName  / getClass / 直接使用c

2017-10-15 14:47:26 8468

转载 海量数据处理-分而治之和hash映射

转:http://blog.csdn.net/yangquanhui1991/article/details/52172768什么是Hash     Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的

2017-10-15 11:56:23 418

原创 海量数据去重之SimHash算法简介和应用

转:http://blog.csdn.net/u010454030/article/details/49102565SimHash是什么SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling 》中提到的一种指纹生成算法或者叫指纹提取算法,被Google广泛应用在亿级的网页去重的Job中,作为l

2017-10-15 11:54:21 1088

转载 MapReduce+HDFS,海量数据去重的五大策略

随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。举个简单的例子:在专门为电信运营商定制的呼叫详单去

2017-10-15 11:51:46 464

转载 flume拦截器

1.http://blog.csdn.net/xiao_jun_0820/article/details/38111305对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有:Timestamp Interceptor

2017-10-11 22:30:23 864

转载 Hive之UDF,UDAF自定义函数

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数。UDF用户自定义函数(user defined function)–针对单条记录。 创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函数 8、h

2017-10-10 23:50:15 867

原创 hash取模将大文件转成小文件,可排序,可求TopN

声明:参考某文章代码(记不住地址了),将其代码修改为按hash将数据分到不同文件中import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOExc

2017-10-10 23:46:06 1857

转载 Es优化(二)

亿级规模的ES查询优化实战能用filter就不用query filter拿到相应的doc后不计算score不用排序 query会对符合条件的doc计算score并进行排序 filter的查询速度比query快很多增加相关cache的配置 indices.cache.filter.size: 30% indices.fielddata.cache.si

2017-10-10 13:10:11 1354

转载 SQL之decode,sign

decode()函数简介:主要作用:将查询结果翻译成其他值(即以其他形式表现出来,以下举例说明);使用方法:Select decode(columnname,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值)From talbenameWhere …其中columnname为要选择的table中所定义的column,·含义解释:

2017-10-09 22:27:02 526

转载 SQL常见面试题

1.用一条SQL 语句 查询出每门课都大于80 分的学生姓名name   kecheng   fenshu张三    语文       81张三     数学       75李四     语文       76李四     数学       90王五     语文       81王五     数学       100王五     英语       90A

2017-10-09 22:24:49 1662 3

原创 Es优化

1.创建优化调大系统的"最大打开文件数",建议32K甚至是64Kulimit -a (查看)ulimit -n 32000(设置)修改配置文件调整ES的JVM内存大小1:修改bin/elasticsearch.in.sh中ES_MIN_MEM和ES_MAX_MEM的大小,建 议设置一样大,避免频繁的分配内存,根据服务器内存大小,一般分配60%左右(默认 256M)2:如果使

2017-10-09 10:49:08 459

原创 自定义flume-source

package com.bigdata.flume;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.EventDeliveryException;import org.apache.flume.PollableSource;import org.apache.fl

2017-10-08 22:29:22 820

转载 自定义MapReduce导入HDFS数据到HBase

1.使用Map+Reduce方式public class MapReduceImport { /** * Mapper */ static class HMapper extends MapperLongWritable, Text, LongWritable, Text> { Text v2 = new Text();

2017-10-08 22:16:07 327

转载 HBase数据导出到HDFS

一、目的把hbase中某张表的数据导出到hdfs上一份。实现方式这里介绍两种:一种是自己写mr程序来完成,一种是使用hbase提供的类来完成。二、自定义mr程序将hbase数据导出到hdfs上2.1首先看看hbase中t1表中的数据:2.2mr的代码如下:比较重要的语句是job.setNumReduceTasks(0);//为什么要设

2017-10-08 21:49:28 2590 2

转载 Spark的性能调优

转:http://mb.yidianzixun.com/home?page=article&id=0C6hBEKe&up=211基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stag

2017-10-08 13:18:55 930

原创 flume之source,channel,sink

从官网整理的

2017-10-07 20:10:10 292

原创 自定义fulme---sink至mysql

实现功能:采集 nc hadoop01 44444 的数据,将nc的数据保存至mysql数据库(主要实现自定义sink至mysql,hadoop01为机器名)若nc 没安装,请先安装netcat1.代码如下:package com.bigdata.flume;import com.google.common.base.Preconditions;import com.google

2017-10-07 17:59:50 487

原创 Alluxio使用场景

详见:http://blog.csdn.net/alluxio/article/details/59536999特点:多个Spark job以内存级速度共享相同的数据(可以做到多个job共享一个RDD)

2017-10-07 13:57:53 2869

转载 ElasticSearch 常用的查询过滤语句

转:http://www.cnblogs.com/ghj1976/p/5293250.htmlquery 和  filter 的区别请看: http://www.cnblogs.com/ghj1976/p/5292740.html  Filter DSL term 过滤term主要用于精确匹配哪些值,比如数字,日期,布尔值或 not_analyzed

2017-10-07 11:56:28 487

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除