自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(102)
  • 资源 (2)
  • 收藏
  • 关注

原创 一篇搞定hive窗口函数

语法:分析函数 over(partition by分组列 order by排序列rows between 开始位置 and 结束位置)常用分析函数: 聚合类 avg()、sum()、max()、min() 排名类 row_number() 按照值排序时产生一个自增编号,不会重复 rank() 按照值排序时产生一个自增编号,值相等时会重复,会产生空位 dense_rank() 按照值排序时产生一个自增编号,值相等时会重复,不会产生空位 其他类 lag(列名,往...

2020-06-15 21:07:56 238

原创 hive sql经典面试题

1、数据 访客 月份 访问次数 A 2020-01 5 A 2020-01 15 B 2020-01 5 A 2020-02 8 B 2020-03

2020-06-15 20:54:15 341

原创 idea报 @Override is not allowed when implementing interface method解决方法

@Override is not allowed when implementing interface method的解决办法:第一种:将Language level改成图中所示选择Modules,修改“Language Level” 为 “8-Lambdas,…”;选择Project, 修改“Project language level” 为 “SDK default”。第二种:Settings > Modules > Javac > 修改Project b.

2020-06-14 20:04:47 119

原创 Azkaban工作流调度器原理

1. 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成; shell脚本程序、java程序、mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 当然好多公司都开发自己的调度系统 2. Azkaban是什么 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程

2020-06-05 21:17:06 180

原创 5.创建Sqoop作业

Sqoop作业 将事先定义好的数据导入导出任务按照指定流程运行 语法 sqoop job (generic-args) (job-args) [-- [subtool-name] (subtool-args)]1.1 创建作业 --create 创建一个名为myjob,实现从mysql表数据导入到hdfs上的作业 注意 在创建job时,==命令"-- import" 中间有个空格== sqoop job \--create .

2020-06-02 19:41:50 76

原创 4.sqoop增量导入

1.增量导入hdfs在实际工作当中,数据的导入很多时候都是全量的导入一次,之后只需要导入增量数据即可,并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导入,为了支持增量的导入,sqoop也给我们考虑到了这种情况并且支持增量的导入数据 增量导入是仅导入新添加的表中的行的技术。 它需要添加 ‘incremental’, ‘check-column’, 和 ‘last-value’选项来执行增量导入。 --in.

2020-06-02 19:41:38 66

原创 3.sqoop过滤数据导入hive表(where和query条件)

1.导入表数据子集到hdfs(可以改成导入到hive,举一反三) 导入表使用Sqoop导入工具,"where"子句的一个子集。它执行在各自的数据库服务器相应的SQL查询,并将结果存储在HDFS的目标目录。 按照条件进行查找,通过--where参数来查找表emp当中dept字段的值为 TP的所有数据导入到hdfs上面去 sqoop import \--connect jdbc:mysql://node2:3306/userdb \--username root --password.

2020-06-02 19:41:26 1062

原创 2.sqoop全量数据导入hive表

1.导入关系表到Hive中(需要手动创建好hive表)(1) 将我们mysql表当中的数据直接导入到hive表中的话,需要将hive的一个叫做hive-exec-1.2.2.jar包拷贝到sqoop的lib目录下cp /opt/bigdata/hive-1.2.2/lib/hive-exec-1.2.2.jar /opt/bigdata/sqoop-1.4.7.bin__hadoop-2.6.0/lib/(2) 准备hive数据库与表, 在hive中创建一个数据库和表create d.

2020-06-02 19:41:19 202

原创 1.sqoop全量导入数据到hdfs

1.导出数据库表全量数据到HDFS 在MySQL数据库服务器中创建一个数据库userdb, 然后在创建一张表 emp,添加点测试数据到表中 从MySQL数据库服务器中的userdb数据库下的emp表导入HDFS上 CREATE DATABASE /*!32312 IF NOT EXISTS*/`userdb` /*!40100 DEFAULT CHARACTER SET utf8 */;USE `userdb`;/*Table structure for table `emp`

2020-06-02 19:41:11 125

原创 sqoop理论和安装部署

1. Sqoop是什么 ? Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具 导入数据 将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统 导出数据 从Hadoop的文件系统中导出数据到关系数据库 2. Sqoop工作原理 sqoop将导入和导出的命令翻译成mapreduce程序实现 在翻译出的mapreduce中主要是对in...

2020-06-02 19:40:53 41

原创 5.flume静态拦截器使用

static拦截器的功能就是往采集到的数据的header中插入自己定义的key-value对1、案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log, 现在需要把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为:/source/logs/access/20200101/**/source/logs/nginx/20200101/**/

2020-05-31 15:50:43 166

原创 4.flume负载均衡(loadbalance)

master:]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-client.properties_loadbalance --name a1 -Dflume.root.logger=INFO,consoleslave1:]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-server.properties --name a1 -Dflume.root.l

2020-05-31 15:39:18 63

原创 3.flume故障转移(failover)

1、故障转移(failover):master:]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-client.properties --name agent1 -Dflume.root.logger=INFO,consoleslave1:]# ./bin/flume-ng agent --conf conf --conf-file ./conf/flume-server.properties --name a1 .

2020-05-31 15:30:00 117

原创 2.sink输出HDFS

输出HDFS]# ./bin/flume-ng agent --conf conf --conf-file ./conf/3.flume.conf --name a1 -Dflume.root.logger=INFO,console发数据:]# echo '我爱你中国' >> 1.log # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1

2020-05-31 15:15:34 76

原创 1.netcat和exec source方式

1.使用官方的组件, 搭配一个 从 netcat source -> memory channel -> logger sink 的 demo启动agent:]# ./bin/flume-ng agent --conf conf --conf-file ./conf/1.flume_netcat.conf --name a1 -Dflume.root.logger=INFO,console发数据:]# telnet master 44444flume_netcat.conf文

2020-05-31 15:06:04 123

原创 flume架构理论

1. Flume是什么 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 Flume支持在日志系统中定制各类数据发送方,用于收集数据; Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 flume支持的多种接入资源数据类型有哪些;多种接出数据类型?? 接入:console:终端、RPC网络、text文本、tail命令、syslog、exec输出:磁盘、hdfs、hbase、kafka、网络传输

2020-05-30 14:59:02 84 1

原创 yarn3种调度器

yarn调度器试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO,即按照用户提交任务的时间

2020-05-30 12:34:19 107

原创 yarn的使用

如何使用yarn1 配置文件<!-- $HADOOP_HOME/etc/hadoop/mapred-site.xml --><configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration&...

2020-05-30 12:27:00 80

原创 Yarn资源调度系统入门

1. yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,不再强迫使用MapReduce框架。当企业的数据在HDFS中是可用的,有多种数据处理方式是非常重要的。有了Hadoop2.0和YARN,机构可以采用流处理、.

2020-05-30 12:23:30 62

原创 MapReduce相关问题

1.在高阶数据处理中,往往无法把整个流程写在单个MapReduce作业中,下列关于链接MapReduce作业的说法,不正确的是?()答案:AA.ChainReducer.addMapper()方法中,一般对键/值对发送设置成值传递,性能好且安全性高B.使用ChainReducer时,每个mapper和reducer对象都有一个本地JobConf对象C.ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成D.Job和JobControl类可以管理非..

2020-05-30 11:13:44 525

原创 MapReduce-WordCount案例

有上一篇讲解了MapReduce运行原理后,相信大家能理解了,本篇以wordcount为案例了解下MapReduce编程的乐趣...1 MR参考代码1 .1Mapper代码package com.mr.cf.wordcount;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado

2020-05-30 11:08:18 47

原创 搞定MapReduce编程模型

1. MapReduce编程模型 MapReduce是采用一种分而治之的思想设计出来的分布式计算框架 一些复杂或计算量大的任务,单台服务器无法胜任时,可将此大任务切分成一个个小的任务,小任务分别在不同的服务器上并行的执行;最终再汇总每个小任务的结果 MapReduce由两个阶段组 成:Map阶段(切分成一个个小的任务)、Reduce阶段(汇总小任务的结果)。 1.1 Map阶段 map()函数的输入是kv键值对,输出是一系列kv键值对,输出结果写入本地磁盘。

2020-05-30 10:50:42 61

原创 HDFS分布式文件存储系统

1. Hadoop是什么1.1 Hadoop架构Hadoop由三个模块组成:分布式文件存储HDFS、分布式计算MapReduce、资源调度引擎Yarn1.2 分布式是什么分布式:利用一批通过网络连接的、廉价普通的机器,完成单个机器无法完成的存储、计算任务1.3 HDFS是什么Hadoop分布式文件系统1.4 为什么使用HDFS高可用、容错、可扩展2.核心概念block2.1 数据块block2.1.1 HDFS block块HDFS3.x上的文件,是...

2020-05-24 14:11:38 74

原创 HDFS常用命令

hadoop fs类似于hdfs dfs1. 如何查看hdfs子命令的帮助信息,如rmdir子命令hdfs dfs -help rmdir2. 查看hdfs文件系统中已经存在的文件hdfs dfs -ls /hadoop fs -ls /3. 在hdfs文件系统中创建文件hdfs dfs -touchz /a.txt4. 从本地路径上传文件至HDFShdfs dfs -put /本地路径 /hdfs路径5. 在hdfs文件系统中下载文件hdfs dfs -get

2020-05-24 13:55:01 53

转载 SAP Hana sql语法

SAP Hana sql语法感觉博主热心作品,如有得罪,尽请告知!https://www.cnblogs.com/renzhituteng/p/11013957.html

2019-12-24 17:33:42 429

原创 JAVA API获取HANA Schema信息和表 主键 列名和列类型信息

获取数据库信息获取数据库所有Schema获取所有表信息获取schema下所有的表获取表主键信息获取表中列值信息package com.XXXSchema;import java.sql.*;public class JDBCDemoHANA2 { private static final String DRIVER = "com.sap.db.jdbc....

2019-12-24 17:29:46 585 1

原创 JDBC连接hana JAVA API

JDBC连接hana JAVA APIwork中需要将kafka topic中的数据sync到hana表中,事先做了一个了解hana语法和代码的demo,后续介绍kafka connector的使用 和 hana语法的简单使用package com.xxx;import java.sql.*;public class JDBCDemoHANA { private sta...

2019-12-24 17:02:43 133

原创 treeMap的简单使用

treeMap的简单使用,后续介绍底层实现import java.util.HashMap;import java.util.Map;import java.util.SortedMap;import java.util.TreeMap;/** * * TreeMap 的 tailMap()、headMap()、firstKey() 方法使用 * */public cla...

2019-12-20 16:02:31 139

原创 typesafe.config读取配置信息

maven依赖: <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifactId> <version>1.3.3</version> </dependency>测...

2019-12-20 15:35:59 556

原创 idea创建普通maven+java工程

最近想把以前积累的零散java练习和学习的东西建一个项目整理出来上传到码云托管,免得电脑挂了啥也找不到配置是IDEA2018.3.4+java8+maven3.6.1,截图记录下步骤第一步:File--> New-->Project打开的界面如下:选择Maven,勾选Create from archetype,选择下面的quickstart,这是一个普通的java工程,...

2019-12-18 16:41:08 44

原创 idea用maven开发spark程序的pom.xml

我们用maven构建spark项目,需要使用maven来管理各个组件jar需要找依赖的话,地址:https://mvnrepository.com/<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc...

2019-12-09 17:44:53 88

原创 hive关系操作符

关系操作符关系操作符——比较操作数并产生TRUE或者FALSE,需要注意的是Hive的相等比较为=,而不是= =。

2019-12-05 18:11:21 39

原创 Spark的Direct方式接收kafka消息实现WordCount

1.yarn集群开启2.启动zookeeper集群(kafka需要)3.启动kafka服务端、生产者和消费者端(生产者模拟往kafka灌入数据,消费者端打印数据)3.1启动kafka服务端3.2启动kafka生产者3.3启动kafka消费者4.spark官方Demo改吧改吧找到你的spark安装目录--&gt;spark-2.0.2-bin-hadoop2....

2018-11-30 16:12:43 395

原创 mongodb集群搭建(测试环境)

搭建集群规划 主机 用途 10.xxx.xx.111 主节点(主) 10.xxx.xx.112 备节点+仲裁点(从+仲裁器) 一,下载安装包1:首先官网下载的的Linux的安装包下载的社区版https://www.mongodb.com/download-cent...

2018-10-25 18:05:55 483

原创 mogodb简介

MongoDB的简介:mongodb的集群搭建方式主要有三种,主从(master slave)模式,副本集(分片)模式,三种模式各有优劣,适用于不同的场合,属副本集应用最为广泛,主从模式现在用的较少,sharding模式最为完备,但配置维护较为复杂。本文我们来看下Replica Set模式的搭建方法。Mongodb的副本集即副本集方式主要有两个目的,一个是数据冗余做故障恢复使用,当发生硬件...

2018-10-25 18:05:32 120

原创 vue+jfinal+nginx前后台完全分离集群部署

简单说:先分别将多个的Tomcat的启动在不同的端口(非80端口)下面,然后在nginx的的中配置上游指向这些的Tomcat中,最后通过位置+正则使nginx的的接管所有静态资源请求即可。小编在两台测试服务器上做此实验。192.168.50.111安装的Nginx的部署jfinal项目;分别开启8001,8002,8003三个的Tomcat的192.168.50.112安装的Nginx...

2018-10-24 12:52:58 2261

原创 redis-4.0.1集群搭建

第一步redis官网下载最新的安装包项目中要用到redis集群,我在测试环境上搭建了redis 的集群。我这里用的是redis-4.0.11.tar.gz 的下载地址: https://redis.io/download执行下面的命令下载即可$ wget http://download.redis.io/releases/redis-4.0.10.tar.gz安装前要准备好...

2018-09-29 11:35:06 663

原创 rocketmq No route info of this topic错误(原因版本不一致)

坑啊网上找了半天,启动broker的时候设置autoCreateTopicEnable=true没有用调试,最后发现rocketmq的版本和rocketmq client的版本不一致导致。我的集群使用的rocketmq的版本是4.3.0,java client端jar包用的是4.2.0的版本所以导致这个报错问题rocketmq 的 4.3.0版本的自动创建(autoCreateTo...

2018-09-14 09:45:51 1561 1

原创 lock failed, MQ already started问题解决

lock failed, MQ already started出现如下问题 是因为我们在集群中master和slave共用一个storePath造成的,这个时候 我们要启动的每一个broker要指定不一样的storePath 路径就行,也就是在我们的配置文件中修改即可 。。。。完美解决。。。。 ...

2018-09-06 21:45:07 6434 2

原创 RocketMQ4.3.0集群搭建和部署rocketMq监控平台

集群部署(采用2个master,2个slave异步复制的集群结构) RocketMQ具有以下特点:1)是一个队列模型的消息中间件,具有高性能、高可靠、高实时、分布式特点。2)Producer、Consumer、队列都可以分布式。3)Producer向一些队列轮流发送消息,队列集合称为Topic,Consumer如果做广播消费,则一个consumer实例消费这个Topic对应...

2018-09-06 21:40:14 12966 4

jfinal的demo

jfinal小demo用于和vue实现前后端分离,Nginx管理jfinal和vue。

2018-10-22

vue的demo的使用

利用vue脚手架快速搭建一个vue项目,然后做相应的修改,用于前端vue+后台jfinal+Nginx负载搭建集群使用,实现前后端分离

2018-10-22

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除