枫火燕归林-CSDN博客

原创 Linux 局域网内服务器时间同步

在部署集群服务时，时间同步比较重要，记录下时间同步的操作步骤选择一台时间服务器同步时间 1、先选择其中一台服务器作为ntp服务器，其他服务器定时与这台ntp服务器进行时间同步与国内网上常用的ntp服务器进行同步修改配置文件/etc/ntp.conf 2、修改配置文件 /etc/ntp.conf ：set nu 显示行数解开注释

2016-12-22 18:01:55 1937

原创 Hive部署UDF方式

Hive 支持自定义函数 UDF 一般在开发了hive的udf函数的jar文件后，需要将jar文件放入hive的环境中才可以使用第一种 add jar命令：使用基本的add jar path 命令的方法加入，但是这样的方法属于一次性的，当退出客户端时就会失效第二种修改配置文件修改hive-site.xml 配置文件 , 增加 hive.aux.jars.path 的参数，参数为udf j

2016-12-21 11:43:12 745

转载 Flume启动内存溢出错误

bug修复 “二总”，感谢“二总”的分享在ambari集群下启动flume造成内存溢出的报错在使用 channels.c1.type = memory 时启动flume报JVM内存溢出错误：java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError: GC overhead limit exceeded解决方案

2016-11-15 15:30:19 5238

原创 hortonworks部署安装

hortonworks部署安装环境准备三台干净的服务器192.168.83.131192.168.83.132192.168.83.133服务器之间配置免秘钥登录配置/etc/hosts 文件保持一致192.168.83.131 bigdata01.com Hmaster192.168.83.132 bigdata02.com Hslave01192.168.83.

2016-08-24 11:16:37 4957

原创 HIVE自定义函数类型

编写代码package UDF.UDFS_CLASS;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFS extends UDF {public Text evaluate(T

2016-03-12 15:34:39 754

原创日志流量分析案例

案例需求创建hive表创建用户create database db_pra;创建表create table if not exists db_log(id string ,url string ,referer string ,keyword string ,type

2016-03-11 22:10:36 878

原创 Sqoop 导入，导出练习

什么是Sqoop sqoop是一个数据转换的工具，可以将hadoop和关系型数据库中的数据进行相互高效的转换 1.把关系型数据库的数据导入到hadoop与其相关的系统(HIVE,HBASE)中 2.把数据从Hadoop系统抽取并导出到关系型数据库中sqoop利用MapReduce加快数据传输的速度，批处理的方式进行数据传输。注意，只有Map任务，没有Reduce任务Sqoop1

2016-03-11 03:00:01 1023

Hive表的数据加载加载本地文件到数据表$ local data local inpath '/../../.' into table table_name;加载hdfs文件到hive表$ load data inpath '/load_students' into student_load_hdfs;覆盖表中所有数据overwrite 关键字$ local data local inpath '/

2016-03-10 18:21:55 853

原创倒排索引

概念倒排索引：倒排索引是文档检索系统中最常用到的数据结果，应用于搜索引擎，根据内容来查找文档的一种方式。进行相反的操作，因称为倒排索引；简单理解就是根据单词，返回它在哪个文件中出现过，而且频率是多少的结果设计思路Map过程在Map端把需要处理的文档上传到hdfs时，输入的文件被处理，得到文件中每一行的偏移量和这一行内容的键值对<偏移量，内容>做为map的输入。得到索引中需要的信息：单词，文档

2016-03-04 14:15:29 788

原创 hive建表以及测试

内部表建表（manaaged_table）内部表定义1、由create table命令直接创建，没有加入关键字的表 2、内部表默认存储/user/hive/warehouse下，也可以由location指定、 3、drop表时会将表数据与元数据同时删除根据以上两种建表方式，引出，hive常用的三种建表的方法内部表常规建表根据需求，分别列出表中的列，创建表应用场景场景：在库中没有相关的表，根据

2016-03-03 23:33:52 3284

原创 Hive de 功能架构

什么是Hivehive简介1.hive是由FaceBook开源的用于解决海量结构化日志的数据统计 2.hive是基于Hadoop的一个数据仓库工具，，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 3 其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce

2016-03-02 22:47:53 453

原创 Hive 的安装部署和测试

Hive的安装Hive安装需求根据hive安装的需求： hive1.2需求1.7+的jdk版本 hive0.14-1.1 需求1.6+的jdk版本（preferred）hadoop2.0+的版本Hive安装环境准备jdk 1.7+版本准备hive安装包（可以去官网下载）hadoop2.5版本 hive各版本下载地址 Hive的安装步骤解压hive的文件安装包到指定文件夹tar

2016-03-02 12:20:31 1217

原创 MapReduce二次排序

什么是二次排序在MapReduce操作时，我们传递的会按照key的大小进行排序，最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上，对value也进行排序。这种需求就是二次排序。二次排序思路我们都知道在MapReduce的运行中，他会根据Key来进行排序，而二次排序，则是在经过Key排序后，将Key和需要排序的Value进行组合，形成一个新的字符然后再次进行排

2016-02-25 12:26:53 744

原创 MapReduce网站基本指标编程

分析网站的基本指标网站基本指标PV:page view ，浏览量网站各网页被浏览的总次数用户没打开一个页面就记录一次，多次打开同一页面，访问量累加UV:Unique vistor，独立访客数一天内访问某站点的人数（以cookie为依据）一天内同一个访客只记录一次VV:Visit View，访客的访问次数记录所有访客一天内访问网站次数当访客完成浏览，并关闭该网站所有页面时记录一

2016-02-23 21:51:50 784

原创 MapReduce shuffle过程

shuffle 的过程shufle的基本概念 Shuffle的正常意思是洗牌或弄乱，它会随机地打乱参数list里的元素顺序。 Shuffle过程是MapReduce的核心。map shuffle和reduce shuffle 在MapReduce的shuffle过程，是从map对文件的输出以及reduce对文件的输入这一部分过程，根据进程的阶段我们将shuffle过程分为两个阶段map shu

2016-02-22 13:04:11 2096

原创 MapReduce 单词统计编程

No1、mapreduce，‘wordcount案例’编程思路No1-1 :MapReduce运行步骤input -->map -->reduce-->outputNo1-1-1 : inputinput阶段：将文件中每行的数据转换成一个{key,value}键值对key:是数据在每行中的偏移量，value：是数据内容No1-1-2 : mapmap阶段:map获取input输

2016-02-17 14:37:01 768

原创文件合并上传

-通过hdfs putMerge命令合并上传的文件通过命令 bin/hdfs dfs 查看dfs的一些操作命令可以找到-getmerge命令[hao@bigdata00 hadoop-2.5.0]$ bin/hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [

2016-02-15 23:15:35 893

原创【HDFS API基本使用】

关于hdfs的基本操作，读取，上传，下载，删除：hdfs文件读取package org.apache.hadoop.studyhdfs;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import o

2016-02-15 22:43:58 369

原创在Linux机上配置Eclipse并部署Maven

准备环境：Markdown和扩展Markdown简洁的语法1、jdk1.72、上传Maven安装包3、上传eclipse安装包4、上传respository安装包步骤 - 1.安装jdk1.7，具体操作看之前的笔记 http://blog.csdn.net/huoyuyan/article/details/504758172、解压Maven并部署Mave环境 -解压Maven

2016-02-10 18:55:09 1974

原创 zookeeper单机与分布式模式

Zookeeper 从设计模式角度来看，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，当数据发生变化，Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应，从而实现集群中类似 Master/Slave 管理模式。。简单来说： Zookeeper 是一个分布式协作框架，它协调namenode与备份na

2016-01-22 11:41:43 447

原创 hadoop分布式搭建

环境准备三台Linux系统（我使用的是CentOS系统） JDK版本1.7； hadoop2.5 配置vi /etc/hosts 增加三台电脑的IP与本机名的映射配置NTP服务器(时间同步) –hadoop-study01.com rpm -qa|grep ntp –查看ntp软件 ntpdate asia.poo.ntp.org–同步时间

2016-01-22 10:43:41 468

原创 Hadoop伪分布式搭建

环境准备： 1、安装jdk1.7 更改 /etc/profile 文件在最后增加红线内容一定注意要resource profile使之生效 2、安装hadoop到指定文件夹

2016-01-12 21:42:10 223

原创 HDFS启动过程

借鉴地址http://www.linuxidc.com/Linux/2012-01/51614.htm http://blog.csdn.net/xh16319/article/details/31375197要了解hdfs的启动，首先要了解几个概念： namenode，Secondarynamenode,datanode namenode是一个中心服务器，他控制客户端对文件的访问，是一个集

2016-01-12 17:38:21 2611

原创 hadoop伪分布式搭建

hadoop搭建方式有三种： Local (Standalone) Mode ——本地模式 Pseudo-Distributed Mode ——伪分布式 Fully-Distributed Mode ——分布式伪分布式集群的搭建是hadoop入门最先接触的模式：环境： jdk：jdk1.7

2016-01-12 11:48:45 511

原创 Linux下jdk的安装

Linux下jdk的安装操作全过程

2016-01-07 13:54:12 647

火羽的博客