自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Hive Later View用法

Lateral View往往与explode或是split函数结果使用样例表:Jack,male,eat-play,北京:海淀-上海:浦东Miso,male,eat-net-play,河北:保定-北京:海淀小明,male,eat-net,河北:张家口-上海:浦东小红,male,net-play,河北:保定-北京:海淀Lily,female,eat-net,河北:保定-北京:海淀Lucy,femal...

2018-05-21 08:57:54 4440 1

原创 HIVE-执行hive的几种方式,和把HIVE保存到本地的几种方式

第一种,在bash中直接通过hive -e命令,并用 > 输出流把执行结果输出到制定文件hive -e "select * from student where sex = '男'" > /tmp/output.txt 第二种,在bash中直接通过hive -f命令,执行文件中一条或者多条sql语句。并用 > 输出流把执行结果输出到制定文件 hive -f exer.sql &...

2018-05-21 08:57:36 1171

转载 HBase-内存规划

HBase中内存规划直接涉及读缓存BlockCache、写缓存MemStore,影响系统内存利用率、IO利用率等资源以及读写性能等,重要性不言而喻。主要配置也是针对BlockCache和MemStore进行,然而针对不同业务类型(简单说来主要包括读多写少型和写多读少型),内存的相关配置却完全不同。再者,对于读缓存BlockCache,线上一般会有两种工作模式:LRUBlockCache和Bucke...

2018-05-21 08:57:17 300

原创 Flume的JVM调优策略

当使用Flume遇到内存溢出等异常时,可参照以下调整你的jvm参数即可.可用 ps -aux | grep flume查看Flume进程使用了多少内存.vi bin/flume-ng修改JAVA_OPTS="-Xmx20m" (默认为20m)  这段是head的最大值 (涉及jvm知识请自补),自行跳调大尝试,但是别超过你的物理内存.vi flume-env.sh(常用修改)解开配置# expor...

2018-05-21 08:57:04 2031

原创 Sqoop实现Mysql与HDFS/Hbase的数据迁移

简介        Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。http://sqoop.apache.org/环境    当调试过程出现IncompatibleClassChangeError一般都是版...

2018-05-21 08:56:38 566

转载 Flume+Kafka+HDFS+Storm+Redis实时分析系统基本架构

今天通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一 个简单的入门级架构,实际生产环境中的大数据实时分析技术还涉及到很多细节的处理, 比如使用Storm的ACK机制保证数据都能被正确处理, 集群的高可用架构, 消费数据时如何处理重复数据或者丢失数据等问题,根据不同的业务场景,对数据的可靠性要求以及系统的复杂度的要求也...

2018-05-21 08:55:41 291

原创 Flume - 拦截器、ETL和Routing

拦截器可以在source之后或者sink之前加入。往source上添加拦截器:agent.sources.s1.interceptors=i1 i2 i3定义三个拦截器,i1,i2和i3.i2将接收i1的输出,i3将接收i2的输出,channel选择器接收i3的输出。Timestamp拦截器在header中不存在timestamp时添加该属性:agent.sources.s1.interce...

2018-05-21 08:55:09 520

原创 Kafka - 介绍

1.    kafka是什么?使用场景? kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。2.     kafka生产消息、存储消息、消费消息Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(kafka集群的s...

2018-05-21 08:54:49 250

原创 Kafka - 集群搭建及相关操作

1)    上传kafka_2.10-0.8.2.2.tgz包到三个不同节点上,解压。2)    配置../ kafka_2.10-0.8.2.2/config/server.properties文件节点编号:(不同节点按0,1,2,3整数来配置)    broker.id=0真实数据存储位置:    log.dirs=/var/kafka/logszookeeper的节点:    zookeep...

2018-05-21 08:54:32 119

原创 Storm - 介绍

Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.0,基本是用Clojure写的。Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之...

2018-05-21 08:54:18 192

原创 Storm - 集群搭建

一、环境要求JDK 1.6+    java -versionPython 2.6.6+    python -VZooKeeper3.4.5+    storm 0.9.4+二、单机模式上传解压$ tar xf apache-storm-0.9.4.tar.gz $ cd apache-storm-0.9.4$ mkdir logs$ ./bin/storm --help下面分别启动ZooKee...

2018-05-21 08:54:07 174

原创 Nexus 私有仓库搭建与 Maven 集成

Maven 是日常开发过程中,都会接触到的项目管理工具。Maven 可以将开发人员从繁杂的文档管理、项目打包等工作中解放出来,把更多的精力放在业务开发上。Maven 带来的便利这里就不多说了,但是只是单单使用 Maven,有时候也会遇到依赖文件无法下载的情况,原因有很多,有可能是中央仓库的问题,也有可能是网络问题等等;与此同时,有一部分的第三方的类库是没有发布到 Maven 上的,因此并没有 Ma...

2018-05-21 08:53:50 158

原创 ecplise配置Maven和创建Maven项目

一、ecplise配置Maven  1、下载eclipse的Maven插件。(有些eclipse版本中已经集成了此Maven插件,可以不用下载)。    需要下载m2eclipse插件。  2、安装m2eclipse插件。  方式一: 使用第一种方式来安装,Help  -->  Install New Software 弹出窗口后点击Add按钮输入http 地址:http://m2eclip...

2018-05-21 08:53:38 1600

原创 Redi - 安装(单机)

1.由于是c语言编写,所以需要安装支持组件      yuminstall -y gcc-c++2.把压缩包上传到linux服务器上,示例位置: /usr/local/temp/ 下     cd/usr/local/temp3.进入到/usr/local/temp 下 运行解压命令     tar zxvf redis-3.0.6.tar.gz4.进入到解压后的目录编译    make &amp...

2018-05-21 08:53:16 167

原创 Redis - 设置密码

   redis没有实现访问控制这个功能,但是它提供了一个轻量级的认证方式,可以编辑redis.conf配置来启用认证。   1、初始化Redis密码:   在配置文件中有个参数: requirepass  这个就是配置redis访问密码的参数;   比如 requirepass test123;   (Ps:需重启Redis才能生效)   redis的查询速度是非常快的,外部用户一秒内可以尝试多...

2018-05-21 08:53:02 647

原创 AWK - 用法

awk 用法:awk ' pattern {action} '  变量名    含义 ARGC   命令行变元个数 ARGV   命令行变元数组 FILENAME   当前输入文件名 FNR   当前文件中的记录号 FS   输入域分隔符,默认为一个空格 RS   输入记录分隔符 NF   当前记录里域个数 NR   到目前为止记录数 OFS   输出域分隔符 ORS   输出记录分隔符 1、aw...

2018-05-21 08:52:46 546

原创 Git 远程仓库---服务器搭建

以 Centos 为例搭建 Git 服务器。1、安装Git$ yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel perl-devel -y$ yum install git -y接下来我们创建一个git用户组和用户,用来运行git服务:$ groupadd git$ useradd git -g ...

2018-05-21 08:52:33 302

原创 Hive调优

一、运行方式(本地与集群)    本地运行:  set hive.exec.mode.local.auto=true    注:hive本地运行有一个保护机制    hive.exec.mode.local.inputbytes.max    默认为128M,即加载的文件大于128M仍以集群方式运行二、显示执行计划    explain extended hql;可以看到扫描数据的hdfs路径三、...

2018-05-21 08:52:20 461

原创 Redis - 安装(集群)

1.# yuminstall ruby -y1.1 后面需要用到ruby脚本2.# yuminstall rubygems -y1.1 安装ruby包管理器3.# geminstall redis-3.0.0.gem3.1 脚本需要ruby其他包,所以安装这个redis.gem4.# mkdirreids-cluster4.1 在/usr/local中新建redis-cluster文件夹5.# c...

2018-05-21 08:51:57 142

原创 Git连接远程仓库

Git 并不像 SVN 那样有个中心服务器。 目前我们使用到的 Git 命令都是在本地执行,如果你想通过 Git 分享你的代码或者与其他开发人员合作。你就需要将数据放到一台其他开发人员能够连接的服务器上。本例使用了自定义Git仓库服务器作为远程仓库。添加远程库要添加一个新的远程仓库,可以指定一个简单的名字,以便将来引用,命令格式如下:git remote add [shortname] [url]...

2018-05-21 08:51:36 335

原创 Windows MySQL-5.7.17-Win-X64-Bit 解压缩版安装配置完整过程

下载MySQL-5.7.17-Win-X64-Bit.zip,下载地址:解压到文件夹(例): 修改配置文件: 打开解压的文件夹(本例的配置文件位置 D:\software\MySQL-5.7.17-WinX-64-bit),重命名my-default.ini为my.ini  修改my.ini内容如下:[mysql]# 设置mysql客户端默认字符集default-character-set=u...

2018-05-21 08:50:58 804

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除