2017年11月_weixin_40652340

原创使用hive和sqoop来实现统计24小时每个时段的PV和UV

【案例】使用hive和sqoop来实现网站基本指标，PV和UV1、PV统计网页浏览总量2、UV去重-》【需求】统计24小时每个时段的PV和UV-》建分区表，按天一级，按小时一级，多级分区-》第一步分析需求-》第二步获取时间字段，天，小时-》对于时间格式进行数据清洗，比如：2015-08-28 18:10:00，从中获取日期和小时-》获取需要有用的字段：id、url、

2017-11-30 16:55:42 3095 1

原创 Hadoop之Sqoop

sqoop Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS及其相关系统（Hbase，Hive），也可以将HDFS的数据导进到关系型数据库中。Sqoo

2017-11-30 11:39:24 227

原创 CDH版 Hadoop Hive Sqoop 安装

快速搭建CDH版Hadoop1、先关闭已经启动的所有服务2、规划目录结构3、解压Hadoop到指定目录4、修改三个*-env.sh配置文件，Java路径 echo $JAVA_HOME 获取 Java路径三个文件为： hadoop-env.sh yarn-env.sh mapred-env.sh 5、修改core-stie.xml fs.d

2017-11-29 14:49:16 570

原创 Hadoop之Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列

2017-11-27 17:15:01 354

原创 MapReduce之二次排序

总结二次排序的要点：1、组合key，自定义数据类型-》继承WritableComparable2、保证原来的分组规则不变，自定义分组规则-》继承RawComparator3、保证原来的分区规则不变，自定义分区规则-》继承partitioner代码实现如下：主类：package com.bigdata.mapreduce;import java.io.IO

2017-11-21 15:17:13 196

原创 Hadoop之HA高可用性

HA存在的背景：HA的工作原理图：HDFS HA高可用性1、active namenode对外提供服务和standby namenode时刻待机准备的2、保证两个namenode任何时候都是元数据同步的3、standby namenode同样需要去读取fsimage和edits文件-》edits变化后的数据文件同样也是需要实时

2017-11-17 09:50:20 7599

原创 Hadoop之Zookeeper

什么是Zookeeper ZooKeeper 顾名思义动物园管理员，他是拿来管大象(Hadoop) 、蜜蜂(Hive) 、小猪(Pig) 的管理员， Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了Zookeeper。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它使用的是类似于文件系统那样的树形数据结

2017-11-16 16:00:04 193

原创 MapReduce之combine

Combine优化机制简介 MapReduce框架的运作基于键值对，即数据的输入是键值对，生成的结果也是存放在集合里的键值对，其中键值对的值也是一个集合，一个MapReduce任务的执行过程以及数据输入输出的类型如下所示，这里我们定义list表示集合：　　map（K1， V1） -> list（K2， V2）　　combine（K2， list（V2）） -> list（K2，

2017-11-16 10:44:07 2308

原创 MapReduce之shuffle

彻底理解MapReduce shuffle过程原理 MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduc

2017-11-16 09:11:06 226 1

原创 eclipse在window环境下配置hadoop插件

1、hadoop-2.5.0.tar.gz解压到windows本地2、windows下安装JDK和eclipse-》JAVA_HOME-》PATH3、解压maven到windows本地4、在windows本地新建一个m2命名的目录5、将repository仓库放到m2目录下6、到maven目录下的conf目录中找到settings.xml文件拷贝到m2目录下7、回到

2017-11-16 08:51:19 299

原创 Linux克隆虚拟机

1、注意克隆先关闭所有正在运行的服务，然后关机2、虚拟机-》管理-》克隆-》虚拟机当前状态-》创建完整克隆-》修改名称以及本地磁盘存放的位置-》等待克隆完成3、克隆完成之后进入新的虚拟机进行配置更改-》IP、主机名、、映射、mac地址等等信息都要修改，修改后建议重启下系统4、建议克隆两台即可，加上原来的那台组成三台模拟一个分布式环境就可以了-》不需要克隆太多

2017-11-15 17:03:28 280

原创 SSH免密码登陆配置

SSH免密码登录 rm -rf ./* 删除 .ssh目录下的这个文件 known_hosts1、$ ssh-keygen -t rsa-》-t代表指定加密类型-》rsa代表加密类型中的一种-》可以直接ssh-keygen-》因为系统默认的就是rsa类型2、发送$ ssh-copy-id bigdata-01.yushu.com3、一般不建议

2017-11-15 16:23:17 111

原创 Hadoop之历史服务器与日志聚合和文件权限

1、历史服务器是一个轻量级的2、配置mapred-site.xml文件，指定两个参数mapreduce.jobhistory.addressbigdata-01.yushu.com:10020mapreduce.jobhistory.webapp.addressbigdata-01.yushu.com:198883、启动：$ sbin/mr-job

2017-11-15 16:09:52 599

原创 Hadoop之 NameNode---DataNode---SecondaryNameNode

1、格式化namenode之后会生成元数据文件，文件系统会有一个根目录2、元数据存放在namenode内存中（启动以后）3、namenode在启动之前，元数据同样会在本地的文件系统中4、fsimage元数据镜像文件-》存储元数据，namenode在启动的时候会读取fsimage文件5、用户对于HDFS文件系统的任何行为操作都会导致元数据发生变化-》内存肯定会知道6、对于HDFS

2017-11-15 16:04:42 259

原创 Hadoop环境部署

1、按照官方的文档进行配置http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/SingleCluster.html2、上传下载工具lrzsz使用yum进行在线的安装：yum install lrzsz命令：上传rz、下载sz3、在试验环境下为了方便起见，可以为普通用户设置比较大的管理权限

2017-11-15 15:53:04 207

原创 Linux中基本的常用命令

1、命令的格式：命令本身【-可选项】【操作的对象】ls -l /opt由于单个命令表示一种功能，那么使用不同的选项用来区分不同的功能某些命令不需要加任何的选项就可以执行，也不需要操作对象命令之间以空格隔开2、命令：pwd-》作用：显示当前用户所在的路径，绝对路径显示3、命令：clear-》作用：清楚屏幕，刷新屏幕-》快捷键：ctrl+l 同样的清除屏幕的功

2017-11-15 15:35:58 296

原创 Linux基本环境设置

Linux基本环境设置 1、ifconfig-》系统管理型命令，查看系统的网络基本信息2、虚拟机的网络连接方式-》桥接-》自动获取IP地址，与本机物理网络有关联-》可以理解为虚拟机的网络和本机的物理网络使用的是一条网线-》NAT（建议使用NAT）-》在虚拟机中创建一个虚拟的网络空间，虚拟出一个网络来连接-》VMnet8-》可以去指定一个静态IP3、

2017-11-15 15:30:27 308

原创大数据之初体验

大数据的基本概念：大数据（巨量数据集合（IT行业术语））；大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的基本特征：大数据的企业架构：大数据的核心理念：分而治之，比如10TB的数据给一台机器

2017-11-15 14:55:38 548

转载 Hadoop HA 机制学习

https://cloud.tencent.com/community/article/282177

2017-11-14 15:34:53 141

转载 IBM Cognos 11链接Hadoop最佳实践

http://bigdata.evget.com/post/1928.html

2017-11-14 15:33:39 478

转载三位一体的工业大数据综述

http://bigdata.evget.com/post/1977.html

2017-11-14 15:32:23 223

weixin_40652340的博客