茶壶妙-CSDN博客

原创在Spark Streaming中使用Direct方式接收Kafka主题数据，使用DStream完成词频统计

总体介绍：Direct方式采用Kafka简单的consumer api方式来读取数据，这种方法不再需要专门Receiver来持续不断读取数据。当batch任务触发时，由Executor读取数据，并参与其他Executor的数据计算过程中去。driver老决定读取多少offsets，并将offsets交由checkpoints来维护。将触发下次batch任务，再由Executor读取Kafka数据并计算。Direct方式的优点：1、简化并行读取：如果要读取多partition，不需要创建多个输入DStre

2020-08-20 22:13:00 314

原创 Spark Streaming通过push方式对接flume数据源

总的思路：以netcat作为flume数据源，通过push的方式将flume数据推送至spark。idea编写flume推送数据的代码，打成jar包step1：pom.xml依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche

2020-08-20 20:03:23 218

原创 kafka 常用操作命令

1、建立topic（消息队列）kafka-topics.sh--create --zookeeper 192.168.***.116:2181 //你的zookeeper的IP--topic mydemo //消息队列的名称--replication-factor 1 //副本数--partitions 1 //分区数2、检查队列是否创建成功kafka-topics.sh--zookeep

2020-08-11 22:59:07 248

原创使用Flume将数据sink到kafka

1、编写flume配置文件a5.channels=c5a5.sources=s5a5.sinks=k5a5.sources.s5.type=spooldira5.sources.s5.spoolDir=/opt/retail_db-csv/datas //要导入kafka的数据的路径a5.sources.s5.interceptors=head_filter //使用拦截器将要导入数据的表头去掉a5.sources.s5.interceptors.head_filter.type=reg

2020-08-06 19:52:20 1827

原创 Flume -自定义Interceptor（拦截器）

1、引入 pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4

2020-08-06 14:39:12 322

原创 Spark SQL API——使用Case Class创建Dataset

package com.njbdqn.mydatasetimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions._/** * 使用dataSet完成零售商店指标统计 * 1、使用RDD装在零售商店业务数据 * customers.csv、orders.csv、order_items.csv、products.csv * 2、定义样例类 * 将RDD转成DataSet */object

2020-07-31 11:33:58 489

原创 HBase Shell 操作命令大全

HBase操作基本操作1、进入HBase客户端命令行2、查看版本3、查看集群状态4、查看5、帮助表的操作1、创建命名空间2、查看命名空间2、创建表3、列出所有表4、使用通配符的方式列出所有表5、查看表信息6、判断表是否存在7、表中插入数据8、根据rowkey获取数据9、获取指定CF（列族）数据的两种方式10、获取指定列的数据11、更新数据12、修改多版本存储13、多版本数据查询14、全扫描15、指定rowkey范围查询16、统计17、删除语法18、删除整行19、删除一个单元格的值20、删除一列21、删除列族

2020-07-23 19:49:40 1200

原创 Zookeeper完全分布式环境搭建（安装和配置）

前提条件安装好jdk和hadoop的完全分布式集群（安装步骤见链接: link集群规划在 hadoop1、hadoop2 和 hadoop3 三个节点上部署 Zookeeper解压安装step1：上传zookeeper安装包到hadoop1主机的/opt/soft文件下，这里使用CDH版本step2：解压zookeeper-3.4.5-cdh5.14.2.tar.gzstep3：移动至install文件夹下mv soft/zookeeper-3.4.5-cdh5.14.2 install

2020-07-07 19:46:33 493

原创 Hadoop集群搭建（完全分布式）

集群准备1、准备3台客户机（关闭防火墙、静态ip，主机映射、主机名称），主机名称分别为Hadoop1，hadoop2，hadoop32、安装jdk3、配置ssh，免密登录4、配置时间同步集群规划Hadoop1hadoop2hadoop3HDFSNameNode DataNodeDataNodeSecondaryNameNode DataNodeTARNNodeManagerResourceManager NodeManagerNodeManager

2020-07-05 20:57:33 179

原创 HBASE安装与配置步骤（伪分布式）

前提条件要先安装对应版本的hadoop和zookeeper，本次安装hbase-1.2.0-cdh5.14.2版本安装与配置步骤step1：将安装包拖拽至虚拟机（liunx系统）的opt文件夹下，并解压[root@hmm opt]# tar -zxf hbase-1.2.0-cdh5.14.2.tar.gzstep2：将加压好的文件复制到soft文件夹下，并重命名为hbase120[root@hmm opt]# cp hbase-1.2.0-cdh5.14.2 soft/hbase120s

2020-06-19 18:02:30 2324

原创 java调用mysql函数与存储过程

mysql创建函数 delimiter $ create function func_sum(num1 int,num2 int) returns int begin declare res int; set res=num1+num2; return res; end$ delimiter ;java调用mysql函数 /** * 用java调mysql函数 **/ public static void main(String[] args) thr

2020-06-19 11:06:23 852

原创 Hive UDF函数构建(之一)

UDF函数构造一、概述二、UDF类型三、UDF开发流程1、继承UDF类或GenericUDF类2、重写evaluate()方法并实现函数逻辑3、编译打包为jar文件4、复制到正确的HDFS路径5、使用jar创建临时/永久函数6、调用函数一、概述UDF函数其实就是一个简单的函数，执行过程就是在Hive转换成MapReduce程序后，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。UDF只能实现一进一出的操作，如果需要实现多进一出，则需要实现UDAF。Hive可以允许用户编写

2020-06-16 20:18:44 546

原创 hive之内置函数（常用函数）

内置函数标准函数字符函数类型转换函数数学函数日期函数集合函数条件函数聚合函数表生成函数标准函数字符函数值函数描述举例结果stringconcat字符串连接函数select concat(‘abc’,‘cd’,‘e’)abccdestringinstrhahaselect instr(‘abcdabcd’,‘cd’)3stringlength字符串长度select length(‘abcdef’)6stringlocatehaha

2020-06-15 23:50:15 463

转载 hive之窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析（在线分析处理）。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over字句之前，一定要注意：在SQL处理中，窗口函数都是最后一步执行，而且

2020-06-15 08:45:51 193

原创 hive导入数据的方式

本地文件导入到hive表中load data local inpath ‘/opt/mydata.csv’ overwrite into table mydemo.gaga;在建表的时候，将hdfs中的数据（比如text、csv文件）导入到新建的表中CREATE EXTERNAL TABLE IF NOT EXISTS categories (category_id int,category_department_id int,category_name varchar(45))ROW F.

2020-06-12 00:06:10 875

原创 hive数据排序之order by、sort by、distribute by和cluster by的介绍与区别

order byorder by (asc|desc)类似于标准的sqlorder by是全局排序，且只会使用一个Reducer干活。速度很慢，使用前要做好数据过滤的工作，否则就等着加班吧。支持使用case when或者表达式就是，order by会对所给的全部数据进行全局排序，并且只会“叫醒”一个reducer干活。所以，数据量很大时，速度就会很慢，如果必须要使用order by进行排序，请做好数据的过滤工作。sort bysort bysort by是局部排序，会对每个Re

2020-06-11 19:31:22 397

原创 Zookeeper、hive安装、配置、初始化及启动

Step1：将zookeeper和hive的压缩包解压[root@hmm opt]# tar -zxf zookeeper-3.4.5-cdh5.14.2.tar.gz [root@hmm opt]# tar -zxf hive-1.1.0-cdh5.14.2.tar.gzStep2：将解压文件移动至soft文件夹下[root@hmm opt]# mv zookeeper-3.4.5-cdh5.14.2 soft/zk345[root@hmm opt]# mv hive-1.1.0-cdh5.1

2020-06-09 20:25:36 745

原创 java代码实现文件在hdfs上的上传与下载

public class MyReadAndWrite { static FileSystem fs; static { try { fs=FileSystem.get(new URI("hdfs://192.168.56.122:9000"),new Configuration()); } catch (IOException e) { e.printStackTrace(); } catch

2020-06-07 15:44:10 794

原创 Hadoop之HDFS集群吞吐量测试

Hadoop官方在Hadoop安装包的share/hadoop/mapreduce/路径下提供了TestDFSIO工具，专门用于测试HDFS的吞吐量。Hadoop版本2.6.0（1）HDFS写性能测试测试命令hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.7-tests.jar TestDFSIO -write -nrFiles 10 -fileSize

2020-06-07 15:19:52 713

weixin_42289266的博客