大数据
文章平均质量分 79
小茗同学IT
这个作者很懒,什么都没留下…
展开
-
01.大数据之CentOS在VM 14.0上的部署以及配置虚拟机的固定ip和访问外网
一.安装VMware WorkStation软件 百度找资源,获得激活序列号,否则只能使用30天。 二.下载CentOs6.5镜像文件 官网下载CentOS-6.5 镜像文件 三.创建新的虚拟机,命名hadlinux1. 在VM14主页中选择创建新建虚拟机 2. 选择自定义高级 3. 默认下一步 4. 选择稍后安装操作系统 5. 选择Linux,CentOS 64位 6. 设置自定义虚...原创 2018-05-21 08:26:37 · 645 阅读 · 0 评论 -
09.大数据之Hive基本概念
一.Hive基础公司的数据处理方式(四种主流):MR、HIVE、HBase、Spark....非主流:pig、storm、mongodb、mr script..... 流程: 1.使用MR开发:编写MR ,实现mapper、reducer、main在hadoop上运行 2.使用hive开发: 2.1使用内置函数:在hive的CLI模式下写HQL,自动转成MR,在hadoop上运行 ...原创 2018-05-31 22:37:26 · 390 阅读 · 0 评论 -
10.大数据之Hive安装
Hive只在一个节点上安装即可1.下载并解压Hive安装包(1)读者可以从官网https://hive.apache.org/downloads.html下载安装包,我下载的为hive-2.1.0。(2)新建文件夹 mkdir /usr/local/hive(3)上传安装包并解压到文件hive中 tar -zxvf hive-0.9.0.tar.gz -C /usr/lo...原创 2018-06-01 19:43:15 · 201 阅读 · 0 评论 -
11.大数据之Hive的基本操作
一、基础操作知识1.Hive的外部表和内部表内部表 (管理表) 默认情况下 创建的表 都是内部表 外部表 (托管表) external create external 内部表与外部表就一个本质区别 : 当drop 一个表时 内部表会被删除 同时 hdfs上所对应的目录和数据都会被删除但是 当drop 一个外部表时 只会将hive中的表删除 hdfs上的数据没有任何变化外部表的创建:c...原创 2018-06-01 22:27:51 · 673 阅读 · 0 评论 -
17、大数据之HBase基础
1. HBase简介1.1. 什么是HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Googl...原创 2018-06-09 16:56:42 · 663 阅读 · 1 评论 -
18、大数据之HBase开发
1. hbase开发1.1. 配置HBaseConfiguration包:org.apache.hadoop.hbase.HBaseConfiguration作用:通过此类可以对HBase进行配置用法实例:Configuration config = HBaseConfiguration.create();说明: HBaseConfiguration.create() 默认会从classpath ...原创 2018-06-09 18:27:11 · 1049 阅读 · 0 评论 -
16.大数据之HBase安装
1. 上传首先确保用户是hadoop,用工具将hbase安装包hbase-0.99.2-bin.tar.gz上传到/home/hadoop下,确保hbase-0.99.2-bin.tar.gz的用户是hadoop,如果不是,执行chown命令,见上文2. 解压su – hadooptar –zxvf hbase-0.99.2-bin.tar.gz3. 重命名mv hbase-0.99.2 hba...原创 2018-06-09 19:20:53 · 184 阅读 · 0 评论 -
20、大数据之Sqoop与Sqoop的安装部署
Sqoop的安装与部署1.下载Sqoop安装包从官网http://sqoop.apache.org下载最新版的Sqoop2.解压并安装Sqooptar -zxvf sqoop-1.4.6.bin_hadoiop-2.0.4-alpha.tar.gz3.配置Sqoop(1)配置MySQL连接器Sqoop经常与MySQL结合,帮助从其他数据源向MySQL数据库导入数据,或者到处数据,所以需要配置My...原创 2018-06-17 20:19:39 · 963 阅读 · 0 评论 -
19、大数据之Flume和Flume的安装部署
一. 日志采集框架Flume1. Flume介绍1.1. 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力,因此,fl...原创 2018-06-10 19:13:08 · 905 阅读 · 0 评论 -
21、大数据之工作流调度器Azkaban
工作流调度器azkaban1、概述1.1为什么需要工作流调度系统 1、一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进...原创 2018-06-18 20:49:37 · 3188 阅读 · 0 评论 -
08.大数据之CentOS5.6下MySQL的安装与配置
1).查看CentOS自带的mysql输入 rpm -qa | grep mysql2)将自带的mysql卸载3)上传Mysql到linux /user/local4)安装mysql的依赖(选做)yum -y install libaio.so.1 libgcc_s.so.1 libstdc++.so.6yum update libstdc++-4.4.7-4.el6.x86_645)...原创 2018-05-31 21:56:55 · 530 阅读 · 1 评论 -
15. 大数据之Zookeper
1. Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的,是Hadoop和Hbase的重要组件。B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)。C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称...原创 2018-06-07 19:42:50 · 487 阅读 · 0 评论 -
06.大数据之MapReduce原理篇
1. MAPREDUCE原理篇(1)Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;1.1 为什么要MAPREDUCE(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分布...原创 2018-05-25 19:34:02 · 332 阅读 · 0 评论 -
07.大数据之MapReduce实践篇
1. MAPREDUCE实践篇(1)1.1 MAPREDUCE 示例编写及编程规范1.1.1 编程规范(1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)(2)Mapper的输入数据是KV对的形式(KV的类型可自定义)(3)Mapper的输出数据是KV对的形式(KV的类型可自定义)(4)Mapper中的业务逻辑写在map()方法中(5)map()...原创 2018-05-26 15:04:32 · 1750 阅读 · 0 评论 -
02.大数据之Linux的常用命令
linux的命令操作1、日常操作命令 查看当前所在的工作目录pwd 查看当前系统的时间 date 看有谁在线(哪些人登陆到了服务器)who 查看当前在线last 查看最近的登陆历史记录 2、文件系统操作ls / 查看根目录下的子节点(文件夹和文件)信息ls -al -a是显示隐藏文件 -l是以更详细的列表形式显示 切换目录cd /home 创建文件夹mkdir aaa 这...原创 2018-05-22 22:16:05 · 164 阅读 · 0 评论 -
12.大数据之Hive性能优化
hive性能调优1:HADOOP计算框架特性· 数据量大不是问题,数据倾斜是个问题。· jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 · sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题。 · coun...原创 2018-06-03 22:48:43 · 330 阅读 · 0 评论 -
13、大数据之Hive参数配置与内置函数
一、Hive参数配置方式开发Hive应用时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。然而实践中经常遇到的一个问题是,为什么设定的参数没有起作用?这通常是错误的设定方式导致的。对于一般参数,有以下三种设定方式:配置文件 命令行参数 参数声明 配置文件:Hive的配置文件包括用户自定义配置文件:$HIVE_CONF_DIR/hive-s...原创 2018-06-03 23:05:44 · 279 阅读 · 0 评论 -
03.大数据之Hadoop集群搭建(完全分布式)
Hadoop集群搭建(完全分布式)一.准备Linux阶段1.安装VMware WorkStation软件 百度找资源,获得激活序列号,否则只能使用30天。 2.在虚拟机上安装Linux操作系统 我这里安装的是CentOS 6.5,按步骤设置成功。 问题:打开是我遇到了Intel-VT-x处于关闭状态,这是我们需要进入电脑Bios主界面configuration>>intelvir...原创 2018-05-23 13:14:54 · 620 阅读 · 2 评论 -
04.大数据之HDFS概述与读写流程
1. HDFS的概念和特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;重要特性如下:(1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M(2)HDFS文...原创 2018-05-24 22:25:53 · 542 阅读 · 2 评论 -
05.大数据之HDFS的shell操作、java操作
一.遇到的一些错误问题一:集群搭建一些问题1.root和hardtop下启动start-all.sh权限不统一的问题,在root下启动后,下次开机在hardtop 下不能启动,因为目录已经占用,hardtop下目录写不了东西。我们可以在学习中直接选择root2. 启动不了,可能配置少了一些< ,>,字母等,看日志文件。3. 启动超时,如果一台没有配好,会造成超时。4. 配地址都用主机...原创 2018-05-24 22:51:50 · 506 阅读 · 0 评论 -
14.大数据之ZooKeeper集群安装
1. 机器部署安装到3台虚拟机上安装好JDK2. 下载 上传从官网下载好ZooKeeper安装包并用工具上传到集群3. 解压su – hadoop(切换到hadoop用户)tar -zxvf zookeeper-3.4.5.tar.gz(解压)4. 重命名mv zookeeper-3.4.5 zookeeper(重命名文件夹zookeeper-3.4.5为zookeeper)5. 修改环境变量1、...原创 2018-06-05 18:59:27 · 183 阅读 · 0 评论 -
22、大数据之Azkaban安装部署
Azkaban安装部署1.安装将安装文件上传到集群,最好上传到安装 hive、sqoop的机器上,方便命令的执行在当前用户目录下新建 azkabantools目录,用于存放源安装文件.新建azkaban目录,用于存放azkaban运行程序2.azkaban web服务器安装解压azkaban-web-server-2.5.0.tar.gz命令: tar –zxvf azkaban-web-serv...原创 2018-06-18 20:50:13 · 338 阅读 · 0 评论