自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

火羽的博客

记录学习,生活,工作的过程

  • 博客(25)
  • 收藏
  • 关注

原创 Linux 局域网内服务器时间同步

在部署集群服务时,时间同步比较重要,记录下时间同步的操作步骤选择一台时间服务器同步时间 1、先选择其中一台服务器作为ntp服务器,其他服务器定时与这台ntp服务器进行时间同步 与国内网上常用的ntp服务器进行同步修改配置文件/etc/ntp.conf 2、修改配置文件 /etc/ntp.conf :set nu 显示行数 解开注释

2016-12-22 18:01:55 1937

原创 Hive部署UDF方式

Hive 支持自定义函数 UDF 一般在开发了hive的udf函数的jar文件后,需要将jar文件放入hive的环境中才可以使用第一种 add jar命令:使用 基本的add jar path 命令 的方法加入,但是这样的方法属于一次性的,当退出客户端时就会失效第二种 修改配置文件修改hive-site.xml 配置文件 , 增加 hive.aux.jars.path 的参数,参数为udf j

2016-12-21 11:43:12 745

转载 Flume启动内存溢出错误

bug修复 “二总”,感谢“二总”的分享在ambari集群下启动flume造成内存溢出的报错在使用 channels.c1.type = memory 时启动flume报JVM内存溢出错误:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError: GC overhead limit exceeded解决方案

2016-11-15 15:30:19 5238

原创 hortonworks部署安装

hortonworks部署安装环境准备三台干净的服务器192.168.83.131192.168.83.132192.168.83.133服务器之间配置免秘钥登录配置/etc/hosts 文件 保持一致192.168.83.131 bigdata01.com Hmaster192.168.83.132 bigdata02.com Hslave01192.168.83.

2016-08-24 11:16:37 4957

原创 HIVE自定义函数类型

编写代码package UDF.UDFS_CLASS;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFS extends UDF {public Text evaluate(T

2016-03-12 15:34:39 754

原创 日志流量分析案例

案例需求创建hive表创建用户create database db_pra;创建表create table if not exists db_log(id string ,url string ,referer string ,keyword string ,type

2016-03-11 22:10:36 878

原创 Sqoop 导入,导出练习

什么是Sqoop sqoop是一个数据转换的工具,可以将hadoop和关系型数据库中的数据进行相互高效的转换 1.把关系型数据库的数据导入到hadoop与其相关的系统(HIVE,HBASE)中 2.把数据从Hadoop系统抽取并导出到关系型数据库中sqoop利用MapReduce加快数据传输的速度,批处理的方式进行数据传输。注意,只有Map任务,没有Reduce任务Sqoop1

2016-03-11 03:00:01 1023

原创 Hive 表加载,导出和查询

Hive表的数据加载加载本地文件到数据表$ local data local inpath '/../../.' into table table_name;加载hdfs文件到hive表$ load data inpath '/load_students' into student_load_hdfs;覆盖表中所有数据overwrite 关键字$ local data local inpath '/

2016-03-10 18:21:55 853

原创 倒排索引

概念倒排索引:倒排索引是文档检索系统中最常用到的数据结果,应用于搜索引擎,根据内容来查找文档的一种方式。进行相反的操作,因称为倒排索引; 简单理解就是根据单词,返回它在哪个文件中出现过,而且频率是多少的结果设计思路Map过程在Map端 把需要处理的文档上传到hdfs时,输入的文件被处理,得到文件中每一行的偏移量和这一行内容的键值对<偏移量,内容>做为map的输入。得到索引中需要的信息:单词,文档

2016-03-04 14:15:29 788

原创 hive建表以及测试

内部表建表(manaaged_table)内部表定义1、由create table命令直接创建,没有加入关键字的表 2、内部表默认存储/user/hive/warehouse下,也可以由location指定、 3、drop表时会将表数据与元数据同时删除 根据以上两种建表方式,引出,hive常用的三种建表的方法内部表常规建表根据需求,分别列出表中的列,创建表应用场景场景:在库中没有相关的表,根据

2016-03-03 23:33:52 3284

原创 Hive de 功能架构

什么是Hivehive简介1.hive是由FaceBook开源的用于解决海量结构化日志的数据统计 2.hive是基于Hadoop的一个数据仓库工具,,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 3 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce

2016-03-02 22:47:53 453

原创 Hive 的安装部署和测试

Hive的安装Hive安装需求 根据hive安装的需求: hive1.2需求1.7+的jdk版本 hive0.14-1.1 需求1.6+的jdk版本 (preferred)hadoop2.0+的版本Hive安装环境准备jdk 1.7+版本准备hive安装包(可以去官网下载)hadoop2.5版本 hive各版本下载地址 Hive的安装步骤解压hive的文件安装包到指定文件夹tar

2016-03-02 12:20:31 1217

原创 MapReduce二次排序

什么是二次排序在MapReduce操作时,我们传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。二次排序思路我们都知道在MapReduce的运行中,他会根据Key来进行排序,而二次排序,则是在经过Key排序后,将Key和需要排序的Value进行组合,形成一个新的字符然后再次进行排

2016-02-25 12:26:53 744

原创 MapReduce网站基本指标编程

分析网站的基本指标网站基本指标PV:page view ,浏览量 网站各网页被浏览的总次数用户没打开一个页面就记录一次,多次打开同一页面,访问量累加UV:Unique vistor,独立访客数 一天内访问某站点的人数(以cookie为依据)一天内同一个访客只记录一次VV:Visit View,访客的访问次数 记录所有访客一天内访问网站次数当访客完成浏览,并关闭该网站所有页面时记录一

2016-02-23 21:51:50 784

原创 MapReduce shuffle过程

shuffle 的过程shufle的基本概念 Shuffle的正常意思是洗牌或弄乱,它会随机地打乱参数list里的元素顺序。 Shuffle过程是MapReduce的核心。map shuffle和reduce shuffle 在MapReduce的shuffle过程,是从map对文件的输出以及reduce对文件的输入这一部分过程,根据进程的阶段我们将shuffle过程分为两个阶段map shu

2016-02-22 13:04:11 2096

原创 MapReduce 单词统计编程

No1、mapreduce,‘wordcount案例’编程思路No1-1 :MapReduce运行步骤input -->map -->reduce-->outputNo1-1-1 : inputinput阶段:将文件中每行的数据转换成一个{key,value}键值对key:是数据在每行中的偏移量,value:是数据内容No1-1-2 : mapmap阶段:map获取input输

2016-02-17 14:37:01 768

原创 文件合并上传

-通过hdfs putMerge命令合并上传的文件通过命令 bin/hdfs dfs 查看dfs的一些操作命令可以找到-getmerge命令[hao@bigdata00 hadoop-2.5.0]$ bin/hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [

2016-02-15 23:15:35 893

原创 【HDFS API基本使用】

关于hdfs的基本操作, 读取,上传,下载,删除:hdfs文件读取package org.apache.hadoop.studyhdfs;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import o

2016-02-15 22:43:58 369

原创 在Linux机上配置Eclipse并部署Maven

准备环境:Markdown和扩展Markdown简洁的语法1、jdk1.72、上传Maven安装包3、上传eclipse安装包4、上传respository安装包 步骤 - 1.安装jdk1.7,具体操作看之前的笔记 http://blog.csdn.net/huoyuyan/article/details/504758172、解压Maven并部署Mave环境 -解压Maven

2016-02-10 18:55:09 1974

原创 zookeeper单机与分布式模式

Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,当数据发生变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式。。 简单来说: Zookeeper 是一个分布式协作框架,它协调namenode与备份na

2016-01-22 11:41:43 447

原创 hadoop分布式搭建

环境 准备三台Linux系统(我使用的是CentOS系统) JDK版本1.7; hadoop2.5 配置vi /etc/hosts 增加三台电脑的IP与本机名的映射 配置NTP服务器(时间同步) –hadoop-study01.com rpm -qa|grep ntp –查看ntp软件 ntpdate asia.poo.ntp.org–同步时间

2016-01-22 10:43:41 468

原创 Hadoop伪分布式搭建

环境准备: 1、安装jdk1.7 更改 /etc/profile 文件在最后增加红线内容 一定注意要resource profile使之生效 2、安装hadoop到指定文件夹

2016-01-12 21:42:10 223

原创 HDFS启动过程

借鉴地址http://www.linuxidc.com/Linux/2012-01/51614.htm http://blog.csdn.net/xh16319/article/details/31375197要了解hdfs的启动,首先要了解几个概念: namenode,Secondarynamenode,datanode namenode是一个中心服务器,他控制客户端对文件的访问,是一个集

2016-01-12 17:38:21 2611

原创 hadoop伪分布式搭建

hadoop搭建方式有三种: Local (Standalone) Mode ——本地模式 Pseudo-Distributed Mode ——伪分布式 Fully-Distributed Mode ——分布式伪分布式集群的搭建是hadoop入门最先接触的模式: 环境: jdk:jdk1.7

2016-01-12 11:48:45 511

原创 Linux下jdk的安装

Linux下jdk的安装操作全过程

2016-01-07 13:54:12 647

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除