- 博客(26)
- 收藏
- 关注
原创 redis操作以及5种数据类型string,hash,list,set,zset
Redis支持五种数据类型:查看key的类型(String,hash...)命令:type keystring(字符串)设置一个值:set命令set name hadoop在设置的时候可以指定当前key的过期时间set key value EX seconds ---->指定key之后seconds的存活时间,seconds之后消失获取一个值:get命令GETR
2017-10-15 18:00:24 1288
原创 redis简介及安装(集群)
1.简介Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。它支持字符串、哈希表、列表、集合、有序集合,位图,hyperloglogs等数据类型。内置复制、Lua脚本、LRU收回、事务以及不同级别磁盘持久化功能,同时通过Redis Sentinel提供高可用,通过Redis Cluster提供自动分区。 简言之,Redis是一
2017-10-15 17:54:35 345
原创 hbase行健设计原则
行健的设计问题行健的热点问题是由于行健相似、连续且数据量过大操作成单region的数据量过大,进而影响读写效率行健应该尽量的随机、不要出现连续行健。常见的行健设计就是,比如手机号码倒置+时间戳,比如随机前缀+关系型数据库中的主键(以存放在mr中电信日志案例为例)因为hbase提供的查询内容非常非常low,但是所有关于hbase的查询只能通过rowkey,所以在设计行
2017-10-15 17:51:53 2811
原创 HBase和Phoenix的整合
安装Phoenix约定安装到/opt目录下面解压:soft]# tar -zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz -C ../重命名 opt]# mv phoenix-4.7.0-HBase-1.1 phoenix拷贝lib目录下面jar包到regionserver机器的lib($HBASE_HOME/lib)目录phoenix]#
2017-10-15 17:48:58 2045
原创 使用Hive来访问HBase
启动hive,进入hive的终端hive --auxpath /opt/hive/lib/hive-hbase-handler-2.1.0.jar,/opt/hive/lib/zookeeper-3.4.6.jar --hiveconf hbase.master=hadoop01:16010 --hiveconf hbase.zookeeper.quorum=hadoop01,hadoop02
2017-10-15 17:46:47 1308
原创 读取hive文件并将数据导入hbase
转:http://www.cnblogs.com/zhanggl/p/5658517.htmlpackage cn.tansun.bd.hbase;import java.io.IOException;import java.net.URI;import java.util.List;import java.util.Map;import org.apache.hado
2017-10-15 17:41:13 1287
转载 Spark上通过BulkLoad快速将海量数据导入到Hbase
转:https://www.iteblog.com/archives/1891.html我们在《通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]》文中介绍了一种快速将海量数据导入Hbase的一种方法,而本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式:第一种使用Put普通的方法来倒数;第二种使用Bulk Load
2017-10-15 15:43:24 1258
转载 Java/大数据常见面试
1-3)java 的io类的图解 1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的直接new的也可以是直接其他的赋值的,那么背new或者背其他赋值的我们叫做是引用对象,最大的区别于 1-5)谈谈你对反射机制的理解及其用途?反射有三种获取的方式,分别是:forName / getClass / 直接使用c
2017-10-15 14:47:26 8468
转载 海量数据处理-分而治之和hash映射
转:http://blog.csdn.net/yangquanhui1991/article/details/52172768什么是Hash Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的
2017-10-15 11:56:23 418
原创 海量数据去重之SimHash算法简介和应用
转:http://blog.csdn.net/u010454030/article/details/49102565SimHash是什么SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling 》中提到的一种指纹生成算法或者叫指纹提取算法,被Google广泛应用在亿级的网页去重的Job中,作为l
2017-10-15 11:54:21 1088
转载 MapReduce+HDFS,海量数据去重的五大策略
随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。举个简单的例子:在专门为电信运营商定制的呼叫详单去
2017-10-15 11:51:46 464
转载 flume拦截器
1.http://blog.csdn.net/xiao_jun_0820/article/details/38111305对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有:Timestamp Interceptor
2017-10-11 22:30:23 864
转载 Hive之UDF,UDAF自定义函数
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数。UDF用户自定义函数(user defined function)–针对单条记录。 创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 4、打成jar包 6、在hive执行add jar方法 7、在hive执行创建模板函数 8、h
2017-10-10 23:50:15 867
原创 hash取模将大文件转成小文件,可排序,可求TopN
声明:参考某文章代码(记不住地址了),将其代码修改为按hash将数据分到不同文件中import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOExc
2017-10-10 23:46:06 1857
转载 Es优化(二)
亿级规模的ES查询优化实战能用filter就不用query filter拿到相应的doc后不计算score不用排序 query会对符合条件的doc计算score并进行排序 filter的查询速度比query快很多增加相关cache的配置 indices.cache.filter.size: 30% indices.fielddata.cache.si
2017-10-10 13:10:11 1354
转载 SQL之decode,sign
decode()函数简介:主要作用:将查询结果翻译成其他值(即以其他形式表现出来,以下举例说明);使用方法:Select decode(columnname,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值)From talbenameWhere …其中columnname为要选择的table中所定义的column,·含义解释:
2017-10-09 22:27:02 526
转载 SQL常见面试题
1.用一条SQL 语句 查询出每门课都大于80 分的学生姓名name kecheng fenshu张三 语文 81张三 数学 75李四 语文 76李四 数学 90王五 语文 81王五 数学 100王五 英语 90A
2017-10-09 22:24:49 1662 3
原创 Es优化
1.创建优化调大系统的"最大打开文件数",建议32K甚至是64Kulimit -a (查看)ulimit -n 32000(设置)修改配置文件调整ES的JVM内存大小1:修改bin/elasticsearch.in.sh中ES_MIN_MEM和ES_MAX_MEM的大小,建 议设置一样大,避免频繁的分配内存,根据服务器内存大小,一般分配60%左右(默认 256M)2:如果使
2017-10-09 10:49:08 459
原创 自定义flume-source
package com.bigdata.flume;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.EventDeliveryException;import org.apache.flume.PollableSource;import org.apache.fl
2017-10-08 22:29:22 820
转载 自定义MapReduce导入HDFS数据到HBase
1.使用Map+Reduce方式public class MapReduceImport { /** * Mapper */ static class HMapper extends MapperLongWritable, Text, LongWritable, Text> { Text v2 = new Text();
2017-10-08 22:16:07 327
转载 HBase数据导出到HDFS
一、目的把hbase中某张表的数据导出到hdfs上一份。实现方式这里介绍两种:一种是自己写mr程序来完成,一种是使用hbase提供的类来完成。二、自定义mr程序将hbase数据导出到hdfs上2.1首先看看hbase中t1表中的数据:2.2mr的代码如下:比较重要的语句是job.setNumReduceTasks(0);//为什么要设
2017-10-08 21:49:28 2590 2
转载 Spark的性能调优
转:http://mb.yidianzixun.com/home?page=article&id=0C6hBEKe&up=211基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stag
2017-10-08 13:18:55 930
原创 自定义fulme---sink至mysql
实现功能:采集 nc hadoop01 44444 的数据,将nc的数据保存至mysql数据库(主要实现自定义sink至mysql,hadoop01为机器名)若nc 没安装,请先安装netcat1.代码如下:package com.bigdata.flume;import com.google.common.base.Preconditions;import com.google
2017-10-07 17:59:50 487
原创 Alluxio使用场景
详见:http://blog.csdn.net/alluxio/article/details/59536999特点:多个Spark job以内存级速度共享相同的数据(可以做到多个job共享一个RDD)
2017-10-07 13:57:53 2869
转载 ElasticSearch 常用的查询过滤语句
转:http://www.cnblogs.com/ghj1976/p/5293250.htmlquery 和 filter 的区别请看: http://www.cnblogs.com/ghj1976/p/5292740.html Filter DSL term 过滤term主要用于精确匹配哪些值,比如数字,日期,布尔值或 not_analyzed
2017-10-07 11:56:28 487
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人