大数据
文章平均质量分 68
四川码匠
此生之路,我将走过;走过这一次,便再也无法重来。所有力所能及的善行,所有充盈于心的善意,我将毫不吝惜,即刻倾于。我将不再拖延,再不淡漠,只因此生之路,再也无法重来。
展开
-
大数据基础知识学习-----Linux学习笔记(一)CentOS常用命令
CentOS常用命令文件目录类建立目录:mkdir 目录名删除空目录:rmdir 目录名无条件删除子目录:rm -rf 目录名改变当前目录:cd 目录名(进入用户home目录:cd ~;进入上一级目录:cd -)查看自己所在目录:pwd查看当前目录大小:du显示目录文件列表:ls-l (-a:增加显示隐含目录) 其中:蓝:目录;绿:可执行文件;红:压缩文件;浅蓝:链...原创 2018-05-28 14:50:59 · 364 阅读 · 1 评论 -
大数据基础知识学习-----Hive学习笔记(一)概述
Hive基本概念Hive概述Hive:由Facebook开源用于解决海量结构化日志的数据统计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能本质是:将HQL转化成MapReduce程序 Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在YARN上Hive的优缺点优...原创 2018-06-08 17:35:54 · 698 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(二)Hive安装环境准备
Hive安装环境准备Hive安装地址Hive官网地址:http://hive.apache.org/文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted下载地址:http://archive.apache.org/dist/hive/github地址:https://github.com...原创 2018-06-09 17:17:31 · 666 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(二)Hive安装环境准备
Hive安装环境准备Hive安装地址Hive官网地址:http://hive.apache.org/文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted下载地址:http://archive.apache.org/dist/hive/github地址:https://github.com...原创 2018-06-09 17:20:15 · 541 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(三)Hive数据类型
Hive数据类型基本数据类型 Hiv基本数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20...原创 2018-06-09 19:20:07 · 276 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(四)DDL数据定义数据库基本操作
DDL数据定义创建数据库创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db hive (default)> create database db_hive;避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) hive (default)> create database if not e...原创 2018-06-10 17:00:04 · 270 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(五)DDL数据定义创建表操作
创建表创建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...原创 2018-06-10 17:00:55 · 243 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(六)DDL数据定义普通表和外部表
管理表默认创建的表都是所谓的管理表,有时也被称为内部表。因为这种表,Hive会(或多或少地)控制着数据的生命周期。Hive默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如,/user/hive/warehouse)所定义的目录的子目录下。当我们删除一个管理表时,Hive也会删除这个表中数据。管理表不适合和其他工具共享数据。普通创建表...原创 2018-06-10 17:01:35 · 332 阅读 · 1 评论 -
大数据基础知识学习-----Hive学习笔记(七)DDL数据定义外部表实例
外部表实例分别创建部门和员工外部表,并向表中导入数据。原始数据dep.txt10 ACCOUNTING 170020 RESEARCH 180030 SALES 190040 OPERATIONS 1700emp.txt7369 SMITH CLERK 7902 1980-12-17 800.00 207...原创 2018-06-10 17:02:24 · 262 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(八)DDL数据定义分区表操作
分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。分区的基本操作引入分区表(需要根据日期对日志进行管理)/user/hive/warehouse/log_parti...原创 2018-06-10 17:03:03 · 222 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(九)DDL数据定义分区表注意事项
分区表注意事项创建二级分区表hive (default)> create table dept_partition2( deptno int, dname string, loc string ) partitioned by (month string, day string) ...原创 2018-06-10 17:03:47 · 199 阅读 · 0 评论 -
大数据基础知识学习-----Zookeeper学习笔记
Zookeeper概述简介Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper工作机制特点Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。Leader负责进行投票的发起和决议,更新系统状态Follower用于接收客户请求并向客户端返回结果,在选举Leader过程中参与投票...原创 2018-06-08 12:49:43 · 320 阅读 · 0 评论 -
大数据基础知识学习-----Zookeeper学习笔记(四)Zookeeper实战
Zookeeper实战分布式安装部署集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper解压安装解压zookeeper安装包到/opt/module/目录下:[luo@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/在/op...原创 2018-06-08 11:59:53 · 880 阅读 · 0 评论 -
大数据基础知识学习-----Storm学习笔记(三)Storm集群搭建
Storm集群搭建环境准备jar包下载安装集群步骤:http://storm.apache.org/releases/1.1.2/Setting-up-a-Storm-cluster.html虚拟机准备准备3台虚拟机配置ip地址1.在终端命令窗口中输入[root@hadoop101 /]#vim /etc/udev/rules.d/70-persistent...原创 2018-06-05 16:55:36 · 240 阅读 · 0 评论 -
大数据基础知识学习-----Storm学习笔记(一)概述
Storm学习笔记总结Storm概述离线计算是什么离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据流式计算是什么流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表技术:Flume实时获取数据、Kafka实时数据存储、St...原创 2018-06-05 14:40:01 · 621 阅读 · 0 评论 -
大数据基础知识学习-----Storm学习笔记(二)基础理论
Storm基础理论Storm编程模型 元组(Tuple)元组(Tuple),是消息传递的基本单元,是一个命名的值列表,元组中的字段可以是任何类型的对象。Storm使用元组作为其数据模型,元组支持所有的基本类型、字符串和字节数组作为字段值,只要实现类型的序列化接口就可以使用该类型的对象。元组本来应该是一个key-value的Map,但是由于各个组件间传递的元组的字段名称已经事先定义...原创 2018-06-05 15:09:35 · 383 阅读 · 0 评论 -
大数据基础知识学习-----Storm学习笔记(四)Storm常用API
常用APIAPI简介Component组件基本接口IComponent接口ISpout接口IRichSpout接口IStateSpout接口IRichStateSpout接口IBolt接口IRichBolt接口IBasicBolt接口基本抽象类BaseComponent抽象类BaseRichSpout抽象类BaseRichBolt抽象类Base...原创 2018-06-05 18:14:17 · 213 阅读 · 0 评论 -
大数据基础知识学习-----Storm学习笔记(五)Storm分组策略和并发度
分组策略和并发度读取文件路径和方法spout数据源:数据库、文件、MQ(比如:Kafka)数据源是数据库:只适合读取数据库的配置文件数据源是文件:只适合测试、讲课用(因为集群是分布式集群)企业产生的log文件处理步骤:(1)读出内容写入MQ(2)Storm再处理分组策略(Stream Grouping)stream grouping用来定义一个stream应该如何...原创 2018-06-05 18:27:33 · 254 阅读 · 0 评论 -
大数据基础知识学习-----Storm学习笔记
Storm学习笔记总结Storm概述离线计算是什么离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据流式计算是什么流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表技术:Flume实时获取数据、Kafka实时数据存储、St...原创 2018-06-05 18:38:30 · 350 阅读 · 1 评论 -
大数据基础知识学习-----Zookeeper学习笔记(一)概述
Zookeeper概述简介Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper工作机制这里写图片描述特点Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。Leader负责进行投票的发起和决议,更新系统状态Follower用于接收客户请求并向客户端返回结果,在选举Leade...原创 2018-06-07 11:26:46 · 400 阅读 · 0 评论 -
大数据基础知识学习-----Zookeeper学习笔记(二)Zookeeper安装
Zookeeper安装本地模式安装部署安装前准备安装jdk通过SecureCRT工具拷贝zookeeper到linux系统下修改tar包权限:chmod u+x zookeeper-3.4.10.tar.gz解压到指定目录: [luo@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module...原创 2018-06-07 17:19:34 · 225 阅读 · 1 评论 -
大数据基础知识学习-----Zookeeper学习笔记(三)Zookeeper内部原理
Zookeeper内部原理选举机制半数机制:集群中半数以上机器存活,集群可用。所以zookeeper适合装在奇数台机器上。Zookeeper虽然在配置文件中并没有指定master和slave。但是,zookeeper工作时,是有一个节点为leader,其他则为follower,Leader是通过内部的选举机制临时产生的例如假设有五台服务器组成的zookeeper集群,它们的...原创 2018-06-08 09:24:33 · 227 阅读 · 0 评论 -
大数据基础知识学习-----Hive学习笔记(十)DDL数据定义修改表
修改表重命名表ALTER TABLE table_name RENAME TO new_table_namehive (default)> alter table dept_partition2 rename to dept_partition3;增加/修改/替换列信息更新列ALTER TABLE table_name CHANGE [COLUMN] ...原创 2018-06-10 17:04:23 · 165 阅读 · 0 评论