2016年11月_H_Hao

12月 11月 10月 09月 08月 06月

原创 CDH配置（Zookeeper，HADOOP，Hive）

第一步：ZOOKEEPER（多台机器，时间同步）在/opt下创建chd目录：sudo mkdir cdh-5.3.6更改所属用户与用户组：sudo chown beifeng:beifeng /opt/* 上传文件到/opt/software目录下：zookeeper-3.4.5-cdh5.3.6.tar，hadoop-2.5.0-cdh5.3.6.tar，hive-0.13.1-cdh5.3.6

2016-11-30 19:44:46 4943

原创 Hive连接与编程

MySQLServer 服务端 Client 客户端HiveServer 后端运行$ bin/hiveserver2 前端运行 bin/hive --service hiveserver2企业中使用管理页面点击启动$ bin/hiveserver2 & $ nohup bin/hiveserver2 & >> hiveserver.logCli

2016-11-22 21:58:49 469

原创 Hive中UDF编程

开发 UDF 步骤，实现小写转大写pom.xml 加入Hive 依赖JAR包创建类继承UDF方式名称： evaluate返回值不能为null一定要测试代码package om.beifeng.bigdata;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;

2016-11-22 21:47:21 606

原创 Hive数据加载与保存

使用 load 方式加载数据到 Hive 表中加载本地文件到hive表 load data local inpath '/opt/datas/emp.txt' into table defalult.emp;分区表：load data local inpath 'local-file-full-path' into table tableName partition (part-column

2016-11-22 21:29:01 845

原创 hive的表的创建及测试

hive创建表的三种方式第一种：普通方式创建语句create table if not exists student(num int,name string)row format delimited fields terminated by'\t'stored as textfile;从本地加载数据：load data local inpath '/opt/datas/student.

2016-11-22 20:10:12 2905

原创 hive的安装部署及测试，MySql安装

Hive部署上传hive安装包到系统选用0.13版本：apache-hive-0.13.1-bin.tar.gz由于hive依赖于Hadoop框架，所以首先启动Hadoop相关守护进程 -》namenode -》datanode -》Resourcemanager -》nodemanager -》historyser

2016-11-22 19:17:00 996

原创 MapReduce 高级应用练习：二次排序及Join

二次排序 -》第一点组合key，key是一个组合的字段（自定义数据类型） -》继承WrtiableComparable -》第二点保证原来的分区不变，需要自定义分区规则 -》继承partitioner -》第三点保证原来的分组不变，需要自定义分组规则 -》继承RawComparator创建文件路径 bin/hdfs dfs -mkdir -p sor

2016-11-22 17:20:33 613

原创 Hadoop 2.x高可用性部署

一、HDFS HA（高可用性）原理　　在Hadoop2.0.0之前，NameNode(NN)在HDFS集群中存在单点故障（single point of failure），每一个集群中存在一个NameNode，如果NN所在的机器出现了故障，那么将导致整个集群无法利用，直到NN重启或者在另一台主机上启动NN守护线程。　　主要在两方面影响了HDFS的可用性：　　（1）在不可预测的情况下，

2016-11-12 21:36:07 1633

原创 Zookeeper分布式集群部署

一、单机模式解压zk安装包 tar -zxf zookeeper-3.4.5.tar.gz -C /opt/modules/配置zoo.cfg 重命名zoo_sample.cfg为zoo.cfg，并修改（修改ZK本地存储路径），先创建路径：mkdir -p data/zkDatadataDir=/opt/modules/zookeeper-3.4.5/data/zkData启动ZK b

2016-11-08 11:00:27 694

原创分布式集群配置SSH免密码登录，时间同步

一、配置SSH免密码登录（三台都要配置）首先进入用户目录.ssh cd /home/beifeng/.ssh删除目录下的所有文件：rm -rf ./*执行命令：ssh-keygen -t rsa三台服务器执行：ssh-copy-id hostxxx 每台机器都执行一下如下命令： ssh-copy-id hadoop-senior01.ibeifeng.com ssh-copy-i

2016-11-08 10:29:56 928

原创 Hadoop 2.x分布式集群部署

一、克隆虚拟机注意点必须先关机（关闭所有的服务进程）选择完整的克隆修改IP、主机名、映射修改主机名 sudo vi /etc/sysconfig/network修改IP 把eth1改为eth0 sudo vi /etc/udev/rules.d/70-persistent-net.rules 将eth0的那一条删掉，把mac地址拷贝出来00:0c:29:49:52:2a，将eth

2016-11-08 10:07:39 1499

原创 MapReduce 分析网站基本指标

理解【网站基本指标】的几个概念 1PV：网页浏览量-》每天每周每月 -》用户每打开一次就记录1次1UV：独立访客数—》userID –>cookie-》过期时间2VV: 访客的访问次数3IP：独立IP数分析需求，依据MapReduce 编程模板编程PV程序1具体代码package com.ibeifeng.bigdata.senior.hadoop.

2016-11-04 17:46:54 1139

原创 MapReduce Shuffle过程

一、Map Shuffle主要做了哪些事？哪些可以设置及如何设置？1、分区partitioner ->>可以自定义规则线程首先根据最终要传的reducer把数据划分成相应的分区(partition)。 -》决定了map输出的数据，被哪个reduce任务进行处理 -》方便与reduce拷贝数据，直接拷贝划分好的区域数据就可以了 2、排序sort->>可以自定义规则在

2016-11-04 17:36:16 1041

原创错误积累

对/etc/目录做一个压缩备份，命名为 “年月日etc.tar.gz”（年月日：为当时的时间） tar -zcvf /2016_10_26etc.tar.gz /etc/tar -zcvf `date +"%Y_%m_%d"`etc.tar.gz /etctar -zcvf $(date +%Y_%m_%d)etc.tar.gz /etc/等

2016-11-02 10:45:40 320

原创 shell 脚本

当运行一个脚本的时候，这个脚本会让用户选择Y 或N ，如果使用者输入Y 或y 时，就显示“OK,continue” 如果使用者输入n 或N 时，就显示“Oh,interrupt” 如果不是Y/y/N/n 之内的其他字节，就显示“I don’t know what your choice is”解答： 1.#!/bin/bashread -p "Please input Y or N:"

2016-11-02 10:26:09 566

原创基于【八股文】格式编写WordCount程序

项目配置将配置文件拷贝到项目中去：/opt/tools/workspace/bigdata-hdfs/src/main/reourcescp /opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xml /opt/tools/workspace/bigdata-hdfs/src/main/reourcescp /opt/modules/hadoop-2.5.0

2016-11-01 21:59:04 1133

原创 MapReduce 基本模版与WordCount代码

一. 基本模版package com.ibeifeng.bigdata.senior.hadoop.mapreduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWri

2016-11-01 20:56:01 590

windows开发Hadoop需要的包

windows开发Hadoop需要的包,winutils工具

2017-08-22

sqlite 需要的dll -sqlite3 -System.Data.SQLite-SQLite.Interop

做C#内嵌数据时提示少的dll 放到执行文件的同目录下

2013-05-31

截图软件打开直接用精简哦

1M大小便于XP系统没有截图工具方便小巧

2012-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

windows开发Hadoop需要的包

sqlite 需要的dll -sqlite3 -System.Data.SQLite-SQLite.Interop

截图软件 打开直接用 精简哦

空空如也

截图软件打开直接用精简哦