树很懒～-CSDN博客

原创 Flume自定义拦截器--idea为例

Flume自定义拦截器–idea为例文章目录Flume自定义拦截器--idea为例一、新建maven项目二、拦截器逻辑编写三、配置 jar包四、配置 flume 文件五、运行程序一、新建maven项目maven建项目参考：https://blog.csdn.net/little_sloth/article/details/107026934导入依赖包<dependency> <groupId>org.apache.flume</groupId>

2020-08-17 17:23:27 607

原创 spark安装--单机

spark安装上传安装包解压vi /etc/profileexport SPARK_HOME=/opt/sparkexport PATH=SPARKHOME/bin:SPARK_HOME/bin:SPARKHOME/bin:PATHcp ./conf/spark-env.sh.template ./conf/spark-env.shvi ./conf/spark-env.shexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop#使 spark 运行

2020-08-06 17:34:45 251

原创 scala相关函数

addString() :将数组中的元素逐个添加到 StringBuilder 中val a=List(1,2,3,4)

2020-08-06 17:15:11 3038

原创 Sqoop之数据迁移

Sqoop一、Soop概述1.定义Soop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到Hadoop( HDFS、HIve、HBase）从Hadoop导出数据到RDBMS将导入或导出命令翻译成MapReduce程序来并行操作和容错2.目标用户系统管理员、数据库管理员大数据分析师、大数据开发工程师等二、导数据2.1 从RDB导入数据到HDFS2.1.1 导入表到HDFSsqoop import --connect jdbc:mysql://hadoop

2020-07-24 09:10:21 542 1

原创 Sqoop之搭建

Sqoop之搭建安装 Sqoop 的前提是已经具备 Java 和 Hadoop、 Hive、 ZooKeeper、 HBase 的环境1 下载并解压1.1上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中1.2 解压 sqoop 安装包到指定目录， tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt改名 mv sqoop-1.4.6-cdh5.14.2 sqoop --可以不改1.3 配置环境变量 vi /etc

2020-07-24 08:39:05 142

原创 Phoenix（安装及使用）

一、Phoenix概述Phoneix简介构建在HBase上的SQL层使用标准SQL在HBase中管理数据使用JDBC来创建表，插入数据、对HBase数据进行查询Phoenix JDBC Driver容易嵌入到支持JDBC的程序中Phoenix支持类SQL语法Phoenix无法代替RDBMS原因：缺乏完整性约束，很多领域尚不成熟Phoenix使HBase更易用Phoenix支持的关键字类型Standard SQL Data Types --标准SQL 数据类型SELECT, UPS

2020-07-24 08:38:08 918

原创 HBase之基本操作命令

HBase基本操作命令一、基本命令version —查看版本信息status —查看状态whoami ?help —查看帮助文档二、表操作命令2.1 创建表 create '表名', {NAME=>'addr'}, {NAME=>'order'}2.2 列出所有表 list2.3 查看表信息 desc '表名'2.4 判断表是否存在 exists '表名'2.5 表中插入数据语法 put ’<table

2020-07-23 20:01:11 916

原创简述Hbase

一、HBase概述HBase是一个领先的NoSQL数据库是一个面向列存储的NoSQL数据库是一个分布式Hash Map，底层数据是Key-Value格式基于Google Big Table论文使用HDFS作为存储并利用其可靠性HBase特点数据访问速度快，响应时间约2-20毫秒支持随机读写，每个节点20k~100k+ ops/s可扩展性，可扩展到20,000+节点高并发二、HBase 应用场景增量数据-时间序列数据特点：高容量，高速写入HBase之上有OpenTSDB模块，

2020-07-23 19:54:32 536

原创简述Hive与HBase的集成

Hive与HBase的集成文章目录Hive与HBase的集成一、Hive与HBase对比二、Hive与HBase集成使用场景三、 HBase 与 Hive 集成使用一、Hive与HBase对比1． Hive（1）数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系，以方便使用 HQL 去管理查询。（2）用于数据分析、清洗Hive 适用于离线的数据分析和清洗，延迟较高。（3）基于 HDFS、 MapReduceHive 存储的数据依旧在 Dat

2020-07-23 17:03:03 264

原创 hive之性能优化

hive之性能优化

2020-07-20 08:34:02 561

原创 hive之高级查询

hive之高级查询一、Hive的数据查询使用方法类似于MySQL，关键字和MySQL一样，不区分大小写limit用于控制输出的行数where —在group by之前，可以没有指定条件对数据进行筛选group by子句对查询的数据进行分组having子句对分组后数据进行进一步的条件筛选，与MySQL的用法一样，只能用在group by之后CTE和嵌套查询1）CTEWITH t1 AS (SELECT …) SELECT * FROM t1;嵌套查询SELECT * F

2020-07-19 18:05:45 947

原创 hive系列之窗口函数

hive系列之窗口函数文章目录hive系列之窗口函数一、窗口函数二、常用窗口函数2.1 排序2.1.1 NTILE2.1.2 rank()2.1.3 dense_rank()2.1.4 row_number()2.2 聚合2.3 分析2.3.1 LAG和LEAD函数2.3.2 first_value和last_value函数一、窗口函数窗口函数窗口函数是一组特殊函数，扫描多个输入行来计算每个输出值，为每行数据生成一行结果；可以通过窗口函数来实现复杂的计算和聚合基本语法select F

2020-07-19 18:04:43 440

原创 Hive常用基础命令

Hive常用基础命令一、打开命令行窗口有两种工具：Beeline和Hive命令行beeline1）启动元数据库(此步可省略)hive --service metastore （后台启动：nohup hive --service metastore &）2）启动hiveserver2hive --service hiveserver2 （后台显启动：nohup hive --service hiveserver2 &）3）启动beelinbeeline -u jdbc:hi

2020-07-19 14:51:57 648

原创 hive的四个排序方法

一、 order byorder by 是要对输出的结果进行全局排序，这就意味着只有一个reduce task时才能实现（多个reducer无法保证全局有序）但是当数据量过大的时候，效率就很低，速度会很慢。二、sort bysort by 不是全局排序，只保证了每个reduce task中数据按照指定字段和排序方式有序排列，是局部排序。reduce task 的数量可以通过 set mapred.reduce.tasks=[num] 来设置。三、distribute bydistribute by

2020-07-19 14:50:09 2838

原创 hive之视图

hive之视图一、视图定义：通过隐藏子查询、连接和函数来简化查询的逻辑结构，是虚拟表，从真实表中选取数据；只保存定义，不存储数据，如果删除或更改基础表，则查询视图将失败，而且视图是只读的，不能插入或装载数据应用场景1）将指定的数据提供给用户，保护数据隐私2）简化查询语句复杂的场景二、视图表创建视图CREATE VIEW view_name AS SELECT 。。。。; ps：创建视图支持 CTE, ORDER BY, LIMIT, JOIN 等– 查找视图 SHO

2020-07-19 12:27:46 894

原创 hive之分桶系列

hive之分桶系列一、分桶定义桶是对数据范围更细的划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。作用1）提高了查询速度2）使抽样（sampling）更高效二、分桶表创建分桶表create table student_buckets(id int ,name string) clustered by (id) into 4 buckets //比普通建表多一个这个stored as textfile;开启分桶设置s

2020-07-19 12:27:14 172

原创 hive分区——静态分区和动态分区

hive分区——静态分区和动态分区语法、区别及使用场景一、 Hive以及分区简介hivehive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。hive分区hive 为了避免全表查询，从而引进分区，将数据进行划分，减少不必要的查询，从而提高效率。二、静态分区三、动态分区...

2020-07-13 08:39:43 944

原创 hive中内、外部表以及修改表操作

hive中内部表和外部表hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。hive的数据表分为内部表跟外部表。一、内部表（管理表）HDFS中为所属数据库目录下的子文件夹。数据完全由Hive管理。删除表（元数据）会删除数据创表语句：create table if not exists studennt(id int,name strin

2020-07-13 08:38:47 3812

原创 Mapreduce工作机制

Mapreduce工作机制文章目录Mapreduce工作机制一、MapReduce简介二、文件切片三、shuffle阶段四、reduce阶段一、MapReduce简介MapReduce是一种并行编程模型，将计算阶段分为两个阶段：Map阶段和Reduce阶段。首先把输入数据源分块，交给多个Map任务去执行，Map任务执行Map函数，根据某种规则对数据分类，写入本地硬盘。然后进入Reduce阶段，该阶段由Reduce函数把Map阶段具有相同key值的中间结果收集到相同Reduce结点进行合并处理，并将结

2020-07-11 23:22:42 1261

原创 Hadoop高可用集群搭建----直接安装

Hadoop高可用集群的搭建一、搭建机器准备条件一台centos7虚拟机，地址改为静态地址，以及关闭防火墙（systemctl disable firewalld）二、安装jdk配置免密登录ps: 先配置，单机时就要先配置，不要等集群的时候再配置，不然免密登录会让乱的怀疑人生ssh-keygen -t rsa -P "" cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys配置单机的hosts

2020-07-11 20:32:52 371

原创 windows本地机器配置hadoop

1. 下载hadoop压缩包并解压到相应文件夹中—相当于安装路径，后面会用到2. 将hadoopBin.rar解压，并将所有文件复制到hadoop解压文件夹下面的bin目录里解压后的hadoopBin复制后的：3. 将hadoop.dll文件复制到C:\Windows\System32 -----需要配置到系统文件中需要复制文件粘贴位置：4. 配置hadoop环境变量路径是：hadoop安装目录下的bin目录还需要新建一个hadoop_home路径，按如下截图新建一个

2020-07-02 19:04:07 3863

原创 sql语句下的同比，环比操作

sql语句下的同比，环比操作题目：有两个表表一：销售明细表二：产品明细需求：查询2020年,每月的销售额,以及同比环比,并按照年月进行升序排序建数据库建表插入数据偷个懒，这些语句就先省略了给看个截图ps: 建表时时间要选择datetime ,后面要对时间进行操作的~思路：分步操作获得每月的数据首先的抽取时间，以及获得每个月的销售额，要有销售额，两个表肯定是要连接起来的------- 获取时间YEAR(字段名)—获取年份MONTH(字段名)----获取时间SEL

2020-07-01 00:44:26 23132 6

原创 Hive初始化数据库异常处理

初始化数据库时报如下错误：org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.2020-06-30 08:25:09,985 WARN [main] util.HeapMemorySizeUtil: hbase.regionserver.global.memstore.upperLimit is deprecated by hbase.regionserver.global.memstore.

2020-06-30 14:25:01 1169

原创 HDFS文件的创建、上传、下载、删除（基于本机API调用）

HDFS文件的创建、上传、下载、删除（基于本机）一、完整的一个Hadoop环境安装参考启动hadoop程序二、新建maven工程新建参考三、文件操作ps:针对文件的操作与Linux虚拟机的操作略有不同Linux虚拟机的操作文件的创建 @Test public void create() throws Exception{ Configuration cfg = new Configuration(); //创建配置文件 FileSystem

2020-06-30 13:45:40 1128

原创 Hadoop环境下用java代码实现hdfs远程文件的上传和下载

Hadoop环境下用java代码实现hdfs远程文件的上传和下载文章目录Hadoop环境下用java代码实现hdfs远程文件的上传和下载一、新建maven工程二、文件的上传三、文件的下载四、生成jar包五、导入jar包并执行操作一、新建maven工程过程参考：此处需要的jar包有：<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hado

2020-06-30 08:46:10 1941 2

原创 maven工程的创建(idea为例)

配置maven文件maven安装包下面的confg文件找到setting.xml文件1）增加<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://ma.

2020-06-29 20:01:19 282

原创 Hive在Hadoop集群下的安装

Hive在adoop集群下的安装文章目录Hive在adoop集群下的安装一、hive安装前必备步骤二、安装Hive三、配置Hive的环境变量四、测试连接一、hive安装前必备步骤Hadoop集群能正常运行安装参考MySql安装安装参考需要增加以下步骤：1）输入：my -uroot -pok 启动数据库2）输入：use mysql创建用户：create user 'bigdata'@'hadoop001' IDENTIFIED BY 'ok';4）创建数据库：

2020-06-29 00:23:10 296

原创 Hbase在Hadoop集群中的搭建

Hbase在Hadoop组件中的搭建一.安装HBase之前的环境搭建Hadoop集群能正常运行安装参考：https://blog.csdn.net/little_sloth/article/details/106964187Zookeeper环境能正常运行安装参考：https://blog.csdn.net/little_sloth/article/details/107005083二.HBase的安装与环境的配置下载安装包将安装包拖入software文件夹中将压缩包解压到opt目录

2020-06-28 19:00:14 278

原创 Zookeeper在Hadoop集群下的安装

# Zookeeper在Hadoop集群下的安装目录# Zookeeper在Hadoop集群下的安装## 一、Hadoop集群的配置三、启动Zookeeper## 一、Hadoop集群的配置具体步骤参考：[https://blog.csdn.net/little_sloth/article/details/106964187]()ps:vbox环境和vmWare的安装步骤是一样的## 二、zookeeper安装及配置（集群下的虚拟机都需要）1. 将zookeeper安装包拖入sof

2020-06-28 17:59:43 442

原创 VMware环境下安装Linux步骤

VMware环境下安装Linux步骤文章目录VMware环境下安装Linux步骤一、创建虚拟机二、网络相关配置以及连接moba一、创建虚拟机创建新的虚拟机此处选择的是典型此处选择的是稍后安装-----后续安装会和vbox安装过程差不多，可以根据实际情况选择安装程序光盘映像文件选择系统-Linux取名以及存放路径ps:建议此处新建一个空文件夹存放，此处和vbox有区别，会分出现很多文件，防止混乱建议新建文件夹存放设置磁盘大小自定义硬件硬件配置详情：1）内存—建议不超过

2020-06-28 16:37:12 230

原创 Hadoop和Hadoop集群的安装和配置

hadoop和hadoop集群的安装和配置文章目录hadoop和hadoop集群的安装和配置一、安装centos7.0二、hadoop安装前配置三、安装以及配置Hadoop环境四、启动Hadoop四、测试五、Hadoop集群配置一、安装centos7.0安装方式详见：https://blog.csdn.net/little_sloth/article/details/106785511二、hadoop安装前配置安装完虚拟之后，使用moba进行后续操作1 . 配置免登录:1）生成密钥：ss

2020-06-26 00:41:32 668

原创 Linux中Elasticsearch索引的简单操作

一、PUT操作put一般用于插入，也可用于更新，但是会使得更新的字段替换原有的所有字段，如果无需全部替换不建议使用用法PUT 索引/类型PUT 索引/类型/类型的编号{Json串}PostPost /索引/类型/编号/_update{ “doc”:{ 列名：值//精准修改}}Post /_bulk —批量操作----必须写在同一行{“create“：{“_index”:索引,“_type”:类型,”_id”:编号}}{json串}{“

2020-06-24 00:27:27 3061

原创 shell常见操作

一、打印1.新建并进入sh 文档,此处在根目录下新建了一个文件夹用于存放shell操作2. 编写文档#！声明脚本默认解释语言、此处使用的是bash shellecho :类似java中system.out.print(),是输出语句，用于在控制台打印执行结果：3.增加执行权限 chmod +x test.sh，使得文件能执行ps：不赋权是执行不了的！！！4.执行：sh文件，有三种方式./sh文件名默认执行目录下的文档，否则须写全路径/bin/bash sh文件，用于具体指定

2020-06-22 23:07:00 519

原创 ELK之集群搭建

ELK集群的搭建一、复制虚拟机ps: 复制虚拟机必须在关闭状态下复制，并且是完全复制（此虚拟机是ELK安装配置已完成的，详情请见：https://blog.csdn.net/little_sloth/article/details/106840834）ps:注意是完全复制，需要勾选重新初始化所有网卡的MAC地址，并且虚拟机的名字不区分大小写，备份的时候需要注意二、修改主机名和主机列表1．网络地址针对复制的虚拟机，打开登录输入：vi /etc/sysconfig/network-scri

2020-06-19 17:25:10 331

原创 Linux环境下ELK的安装配置[Elasticsearch、Logstash、Kibana]

ELK的安装配置一、ES简介ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。特点：高可用，高扩展，是一种NOSQL的数据存储工具二、ES安装前的准备(elk安装包版本要求一致)此处用的是：elasticsearch-6.2.2.tar.gzelasticsearch-head-master.zipkibana-6.2.2-linux-x86_64.tar.gzlogstash-6.2.2.tar.gznode-v8.9.1-linux

2020-06-18 20:09:00 719

原创 Linux中Mysql安装步骤

Mysql安装在moba中点开想要安装的位置，直接拖入即可）上传rpm包yum 下载并安装依赖包：net-tools \ perl \ autoconfps:因为 net-tools 安装了所以这边没有截图安装net-tools命令:yum -y net-tools 自动下载安装安装客户端 : rpm -ivh MySQL-c 按回车自动补全压缩包名安装服务端： rpm -ivh MySQL-s按回车自动补全压缩包名ps:会有依赖报错，根据提示将依赖包删除依赖报错

2020-06-17 23:51:35 283

原创 Linux中Tomcat安装步骤

安装Tomcat切换到tomcat压缩包所在的目录由于linux是最小化安装，需要安装unzip(yum安装)通过yum下载解压包解压tomcat 目录将tomcat解压后的目录移动到opt下面并重命名然后进入tomcat的bin目录，使用chmod +x *.sh 给所有后缀为sh文件赋予执行权限在bin目录下./startup.sh来启动ps: 可以在logs 目录下使用tail -f Catalina.out 查看运行日志测试：Windows界面使用 IP地址：8080

2020-06-17 23:21:06 260

原创 Linux软件安装（JDK和SVN）以及通过ssh跳转服务器

一、通过ssh跳转服务器进入ssh界面会看到当前用户IP为192.168.56.102通过命令行ssh root@192.168.56.101访问地址为192.168.56.101服务器当前用户IP为192.168.56.102跳转准备：开启两个虚拟机------>对应两个IP地址通过ssh root@+IP地址进行远程连接（请求连接192.168.56.101）系统会询问是否连接，同意之后会切换为192.168.56.101 用户可通过vi /etc/passwd 查看当前所有用户

2020-06-17 19:43:22 1517

原创 Linux安装以及部分常用快捷键

一、Linux安装通过虚拟机安装Linux系统首先安装VisualBox下载地址：https://www.virtualbox.org/wiki/Linux_Downloadshttps://www.virtualbox.org此处安装的是

2020-06-16 22:58:10 482

原创 MyBatis-对图书管理系统的登录以及部分查询查询操作（管理员部分）

一登录界面（此处省略密码校验部分）以及所有图书信息展示1、数据库设计：图书类book_id 图书编码book_name 图书名称price 图书价格store 图书库存des 图书简介book_type 图书类型借书表book_id 图书编码borrow_id 借阅人编码borrow_date 借阅日期back_date 默认归还日期归还表book_id 图书编码borrow_id 借阅人编码back_date 实际归还日期dely_money 滞纳金

2020-06-16 00:26:59 1101 1

空空如也

空空如也