Hxm6440-CSDN博客

原创 MyBatis入门案例-注解

商品和品牌之间的一对多与多对一1.环境准备1.1创建表和类1.2创建maven项目1.3导入依赖 <dependencies>  <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifactId>

2020-09-29 10:30:22 262

原创 MyBatis入门案例-XMl

商品和品牌之间的一对多与多对一1.环境准备1.1创建表和类1.2创建maven项目1.3导入依赖 <dependencies>  <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifactId>

2020-07-24 10:51:11 277

原创数据导入hive表和hive表中数据导出的方式

数据导入表的方式1、直接向分区表中插入数据insert into table score3 partition(month ='201807') values ('001','002','100'); 2、通过查询插入数据（linux ） load data local inpath '/export/servers/hivedatas/score.csv' overwrite into...

2020-01-06 20:02:42 240

原创 zookeeper介绍

文章目录zookeeper概述zookeeper概述

2019-12-13 20:35:34 167

文章目录进入HBase客户端命令操作界面查看帮助命令查看当前数据库有哪些表创建一张表添加数据操作查询数据操作通过rowkey进行查询查看rowkey下面的某个列族的信息查看rowkey指定列族指定字段的值查看rowkey指定多个列族的信息指定rowkey与列值查询指定rowkey与列值模糊查询查询所有数据列族查询多列族查询指定列族与某个列名查询指定列族与列名以及限定版本查询指定多个列族与按照数据值...

2019-12-12 21:46:32 494

原创 Hbase的介绍

HBase基本介绍简介HBase 是 bigtable 的开源 Java 版本。是建立在 hdfs 之上，提供高可靠性、高性能、列存储、可伸缩、实时读写 nosql 的数据库系统。它介于 nosql 和 RDBMS 之间，仅能通过主键（row key）和主键的 range 来检索数据，仅支持单行事务（可通过hive支持来实现多表join等复杂操作）。HBase 主要用来存储结构化和半结...

2019-12-12 11:48:38 349

原创 HBase安装部署

上传并解压HBase安装包上传HBase安装包cd /export/softwares/rz解压HBase安装包cd /export/servers/tar -zxvf /export/softwares/hbase-1.2.0-cdh5.14.0.tar.gz修改配置文件cd /export/servers/hbase-1.2.0-cdh5.14.0/confhbase-...

2019-12-12 10:41:00 156

原创 impala的介绍

impala的基本介绍impala是 cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具。impala是基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。impala与hive的关系impala是基于hive的大数据分析...

2019-12-11 08:58:36 870

原创 impala的安装部署

文章目录安装impala的之前集群提前安装好 hadoop，hive。每个节点需要先安装 nc安装impala的节点至少需要12G的剩余空间软件包的上传解压上传安装包解压安装包制作网络资源库（node03是主节点）安装impala修改hive配置文件修改hadoop配置文件复制hadoop、hive的配置文件到impala配置文件修改impala的配置文件修改bigtop配置(三个节点都要执行)重...

2019-12-11 08:05:23 378

原创 Flume介绍

文章目录日志采集框架Flume介绍概述运行机制Flume采集系统结构图Flume安装部署上传安装包解压安装包配置文件在一个完整的离线大数据处理系统中，除了 hdfs+mapreduce+hive 组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：日志采集框架Flume介绍概述Flume...

2019-12-05 21:19:27 173

原创 Sqoop的安装部署

文章目录上传sqoop安装包的压缩包上传到/export/softwares把sqoop的安装包的压缩包解压到/export/servers修改配置文件添加 jar 包上传sqoop安装包的压缩包上传到/export/softwares把sqoop的安装包的压缩包解压到/export/serverscd /export/servers/tar -zxvf /export/software...

2019-11-28 10:18:38 209

原创 mapReduce中shuffle的四个步骤

文章目录partition (分区)sort (排序)combiner (局部聚合)group (分组)partition (分区)分区的算法是对key进行哈希，取到一个哈希值，用这个哈希值与reduceTask的数量进行取余。余几，这个数据就放在余数编号的partitionsort (排序)排序的方法有正序，倒序，字典排序法combiner (局部聚合)对数据进行局部聚合。减少网...

2019-11-27 09:11:21 1623

原创 MySQL的join关键字详解

文章目录内连接 inner joinSQL Join联接子句用于在两个或更多在数据库中的表的记录组合。JOIN是通过使用从两个表字段共通的值组合连接起来。MySQL官方只提供了三种join方式，内连接、左连接和右连接，不支持其他的连接关键字。但是可以通过一定的语法将达到其他的连接的效果。内连接 inner join最频繁使用的和重要的联接是INNER JOIN。它也被称为一个等值连接。IN...

2019-11-26 21:45:31 148

原创 hive自定义函数之java代码

文章目录创建maven项目，导入jar包创建一个java类将项目打包，上传到集群上在hive里添加jar包使用自定义函数创建maven项目，导入jar包 <repositories> <repository> <id>cloudera</id> <url>https://...

2019-11-26 21:37:15 309

原创 hive自定义函数之UDF代码

文章目录创建maven项目，导入jar包创建一个java类继承UDF，并重载evaluate方法将项目打包，上传到集群上在hive里添加jar包设置函数与自定义函数关联使用自定义函数创建maven项目，导入jar包 <repositories> <repository> <id>cloudera</id>...

2019-11-25 21:37:45 311

原创 hive中外部表、内部表、分区表、分桶表

文章目录外部表内部表分区表分桶表外部表创建数据库create database myhive;选择数据库use myhive;创建外部表 ( external)create external table techer (t_id string,t_name string) row format delimited fields terminated by ‘\t’;加载数据 ...

2019-11-22 18:19:28 232

原创 Hive基本操作之数据库操作与数据库表的操作

文章目录数据库操作创建数据库修改数据库查看数据库详细信息删除数据库数据库表操作创建数据库表查询表的类型修改表数据库操作创建数据库create database if not exists 数据库名;use 数据库名;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir<...

2019-11-22 17:17:50 362

原创命令参数介绍

ls 命令常用选项及功能ls命令的基本格式 ls [选项] 目录名称选项功能-a显示全部的文件，包括隐藏文件（开头为 . 的文件）也一起罗列出来，这是最常用的选项之一。-A显示全部的文件，连同隐藏文件，但不包括 . 与 … 这两个目录。-d仅列出目录本身，而不是列出目录内的文件数据。-fls 默认会以文件名排序，使用 -f 选项会直接列出结果，而...

2019-11-20 15:22:25 398

原创压缩，解压；权限命令

解压缩命令创建压缩包： tar -zcvf 压缩包名称被打包压缩的文件或目录 z: gzip格式 j：bzip2格式 c: 创建包 v:显示详细信息 f: 指定文件解压压缩文件： tar -z/jxvf 压缩包文件 -C 目录 x:解压文件/提取文件 -C 解压到指定的目录学习目标：理解linux用户...

2019-11-20 15:21:48 509

原创 Linux常用命令

第一天课后题(1)自动补全按键是哪一个tab 键(2)查看当前目录中的内容ls(3)查看当前目录下的文件列表和详细信息ls -l(4)查看当前目录下的隐藏文件ls -a(5)列出/home/文件夹下的所有文件和目录的详细资料ls -lR(6)列出当前目录中所有以“t”开头的目录的详细内容ls -ld t*(7)只列出文件下的子目录ls -F ./|grep /$(8)...

2019-11-20 15:21:36 238

原创 vi编辑器常用命令

进入编辑模式a: 光标向后移动一位i: 光标和所在字符不发生任何变化o: 给新起一行s: 删除光标所在字符尾行模式的操作:q //quit 退出编辑器:w //write 对修改后的内容进行保存:wq //write quit 保存修改并退出编辑器:q! //(不保存)强制退出编辑器:w! ...

2019-11-20 15:18:43 198

原创压缩，解压参数：tar，zip，unzip，gzip， bzip2

tar命令做打包操作当 tar 命令用于打包操作时，该命令的基本格式为：tar [选项] 源文件或目录tar 打包命令常用选项及含义选项含义-c将多个文件或目录进行打包。-A追加 tar 文件到归档文件。-f 包名指定包的文件名。包的扩展名是用来给管理员识别格式的，所以一定要正确指定扩展名；-v显示打包文件过程；需要注意的是，在使用 tar...

2019-11-20 15:18:29 506

原创 vi编辑器参数

进入vi编辑器命令描述vi filename如果filename存在，则打开；否则会创建一个新文件再打开。vi -R filename以只读模式（只能查看不能编辑）打开现有文件。view filename以只读模式打开现有文件。竖线(|)代表光标的位置；波浪号(~)代表该行没有任何内容。如果没有 ~，也看不到任何内容，那说明这一行肯定是有空白字符（空格...

2019-11-20 15:17:23 539

原创 Shell编程

简介Shell 是一个用 C 语言编写的程序，通过 Shell 用户可以访问操作系统内核服务。Shell 既是一种命令语言，又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。Shell 编程一般指 shell脚本编程，不是指开发 shell 自身。Shell 编程跟 java、php 编程一样，只要有一个能编写代码的文本编辑器和一个能解释执行的脚本解释器...

2019-11-20 15:13:14 319

原创大数据基础知识

服务器什么是服务器服务器也称伺服器，是一种高性能计算机，提供计算服务的设备。服务器的构成包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。由于服务器需要提供高可靠的服务，所以在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。服务器和电脑功能都是一样的，也可以将服务器称之为电脑，只是服务器对稳定性与安全性以及处理器数据能力有更高要求。比如我们随时浏览一个网站，...

2019-11-20 15:11:58 221

原创用户和权限的基本概念

文章目录基本概念组ls-l 扩展组管理终端命令用户管理终端命令修改用户权限基本概念用户是Linux系统工作中重要的一环, 用户管理包括用户与组管理在Linux系统中, 不论是由本级或是远程登录系统, 每个系统都必须拥有一个账号, 并且对于不同的系统资源拥有不同的使用权限对文件 / 目录的权限包括:序号权限英文缩写数字序号01读read...

2019-11-20 15:11:41 884

原创 Hive的基本概念

文章目录Hive简介什么是Hive为什么使用Hive？Hive简介什么是HiveHive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转化为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，Hive可以理解为一个将SQL转化为MapReduce的任务的工具。为什么使用Hive？...

2019-11-20 15:11:01 145

原创 Hive与传统数据库对比

由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。数据库可以用在Online的应用中，但是Hive是为数据仓库而设计的，清楚这一点，有助于从应用角度理解Hive的特性。Hive传统数据库查询语言HQLSQL数据存储HDFSRaw Device或者 Local FS...

2019-11-20 15:08:34 324

原创 HIVE的安装部署

文章目录为什么安装hive，首先要先安装MySQL？MySQL数据库的安装（使用yum源进行安装,在集群中的一个节点上安装）安装hive第一步：上传hive的压缩包到 /export/softwares/第二步：将安装包解压到 /export/servers第三步：修改 hive 的配置文件第四步：上传 MySQL 的 lib 驱动包第五步：将安装包发送给其他两个节点第六步：配置hive的环境变量...

2019-11-19 17:31:00 377

原创挂载光驱

挂载光驱方法一：第一步直接挂载mount /dev/sr0 /mnt/cdrom第二步查看是否挂载成功直接查看lsblk -f查看安装包个数/mnt/cdrom/Packages/ | wc -l方法2：第一步下载插件yum install lrzsz第二步上传光驱rz第三步挂载光驱mount -o loop /CentOS-6.9-x86_64...

2019-11-15 09:19:09 359

原创本地资源库的配置

本地资源库的配置 1、备份/etc/yum.repos.d/内的所有文件通过 cd /etc/yum.repos.d/ 到 /etc/yum.repos.d/ 目录下 [root@node01 mnt]# cd /etc/yum.repos.d/ 创建备份的文件夹 [root@node01 yum.repos.d]# mkdir bk把*.repo文件放到bk文件夹下...

2019-11-15 09:18:49 250

原创将一个新硬盘能够挂载到linux 系统上（开机自动挂载）

目标：将一个新硬盘能够挂载到linux 系统上（开机自动挂载）第一步：查看当前系统磁盘挂载查看系统硬盘挂载情况： lsblk -f （老师不离开）sda├─sda1 ext4 7cc94e03-8b1a-4845-97fb-49a2c39afd8c /boot├─sda2 ext4 fe1d0...

2019-11-15 09:18:15 455

原创 MapReduce编程初体验（idea+VMware）:统计一个文档里的单词数量

将在idea里的java代码放在VMware里运行，具体操作步骤java代码与在idea里的差不多，只有WordCountDriverLinux 做了一点改变其他的代码参考 MapReduce编程初体验（idea）：统计一个文档里的单词个数编写 WordCountDriverLinux 类package com.czxy.test01;import org.apache.hadoop....

2019-11-15 08:47:29 524

原创 MapReduce计算任务的步骤

第一步 InputFormatInputformat到hdfs上读取数据将数据传给Split第二步 SplitSplit将数据进行逻辑切分将数据传给RR第三步 RR（RecordReader）RR：将传入的数据转换成一行一行的数据，输入行首字母偏移量和对应数据将数据传给Map第四步 Mapmap根据业务需求实现自定义代码将数据传给shuffle的partitio...

2019-11-14 14:41:32 178

原创 MapReduce编程初体验（idea）：统计一个文档里的单词个数

文章目录准备数据创建maven项目，pom文件如下定义一个map类定义一个reduce类定义一个主类，用来描述job并提交job准备数据准备一个文档 wordcount.txt 内容如下word count counthadoop hadoop hadoopspark spark sparkhivestorm flumekafkaredishbasestorm flume...

2019-11-13 09:32:52 767

原创 MapReduce简单介绍

什么是MapReducemapReduce是一个计算框架，是指实现某项任务或某项工作从开始到结束的计算过程或流的结构MapReduce计算框架并行计算框架一个大的任务拆分成多个小任务，将多个小任务分发到多个节点上。每个节点同时执行计算分布式计算分布式计算是一种计算方法，是将该应用分解成许多小的部分，分配给多台计算机进行处理Hadoop为什么比传统技术方案快分布式存储分布式...

2019-11-13 08:24:17 539

原创 namenode出现故障后，如何恢复？？

secondaryNamenode对namenode当中的fsimage和edits进行合并时，每次都会先将namenode的fsimage与edits文件拷贝一份过来，所以fsimage与edits文件在secondarNamendoe当中也会保存有一份，如果namenode的fsimage与edits文件损坏，那么我们可以将secondaryNamenode当中的fsimage与edits拷贝...

2019-11-12 10:36:30 557

原创 fsimage和edits详解

namenode元数据解析第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载edits和fsimage文件到内存客户端对元数据进行增删改的请求namenode记录操作日志，更新滚动日志namenode在内存中对数据进行增删改查fsimage保存了最新的元数据检查点，在HDFS启动时加载fsimage的信息，包含了整个HDFS文件系...

2019-11-08 20:59:24 753

原创 HDFS服役新数据节点与退役旧数据节点

文章目录为什么要让新数据节点服役于原有的集群？准备新的节点修改mac地址以及IP地址关闭防火墙，开机不自启关闭selinuxssh免密码登录修改主机名设置主机名和IP的对应关系安装jdk安装Hadoop为什么要让新数据节点服役于原有的集群？随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。准备新的节点修改mac地址...

2019-11-07 20:11:33 616 2

原创 HDFS的安全模式

什么是HDFS安全模式安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除，修改等变更请求。HDFS什么时候进入安全模式：在NameNode主节点启动时，HDFS首先进入安全模式在安全模式下做了什么：DataNode在启动的时候会向namenode汇报可用的block等状态查看hdfs在什么模式 hdfs dfsadmin -safemode ge...

2019-11-05 20:33:46 193 1

空空如也

空空如也