自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 在Spark Streaming中使用Direct方式接收Kafka主题数据,使用DStream完成词频统计

总体介绍:Direct方式采用Kafka简单的consumer api方式来读取数据,这种方法不再需要专门Receiver来持续不断读取数据。当batch任务触发时,由Executor读取数据,并参与其他Executor的数据计算过程中去。driver老决定读取多少offsets,并将offsets交由checkpoints来维护。将触发下次batch任务,再由Executor读取Kafka数据并计算。Direct方式的优点:1、简化并行读取:如果要读取多partition,不需要创建多个输入DStre

2020-08-20 22:13:00 314

原创 Spark Streaming通过push方式对接flume数据源

总的思路:以netcat作为flume数据源,通过push的方式将flume数据推送至spark。idea编写flume推送数据的代码,打成jar包step1:pom.xml依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche

2020-08-20 20:03:23 218

原创 kafka 常用操作命令

1、建立topic(消息队列)kafka-topics.sh--create --zookeeper 192.168.***.116:2181 //你的zookeeper的IP--topic mydemo //消息队列的名称--replication-factor 1 //副本数--partitions 1 //分区数2、检查队列是否创建成功kafka-topics.sh--zookeep

2020-08-11 22:59:07 248

原创 使用Flume将数据sink到kafka

1、编写flume配置文件a5.channels=c5a5.sources=s5a5.sinks=k5a5.sources.s5.type=spooldira5.sources.s5.spoolDir=/opt/retail_db-csv/datas //要导入kafka的数据的路径a5.sources.s5.interceptors=head_filter //使用拦截器将要导入数据的表头去掉a5.sources.s5.interceptors.head_filter.type=reg

2020-08-06 19:52:20 1827

原创 Flume -自定义Interceptor(拦截器)

1、引入 pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4

2020-08-06 14:39:12 322

原创 Spark SQL API——使用Case Class创建Dataset

package com.njbdqn.mydatasetimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions._/** * 使用dataSet完成零售商店指标统计 * 1、使用RDD装在零售商店业务数据 * customers.csv、orders.csv、order_items.csv、products.csv * 2、定义样例类 * 将RDD转成DataSet */object

2020-07-31 11:33:58 489

原创 HBase Shell 操作命令大全

HBase操作基本操作1、进入HBase客户端命令行2、查看版本3、查看集群状态4、查看5、帮助表的操作1、创建命名空间2、查看命名空间2、创建表3、列出所有表4、使用通配符的方式列出所有表5、查看表信息6、判断表是否存在7、表中插入数据8、根据rowkey获取数据9、获取指定CF(列族)数据的两种方式10、获取指定列的数据11、更新数据12、修改多版本存储13、多版本数据查询14、全扫描15、指定rowkey范围查询16、统计17、删除语法18、删除整行19、删除一个单元格的值20、删除一列21、删除列族

2020-07-23 19:49:40 1200

原创 Zookeeper完全分布式环境搭建(安装和配置)

前提条件安装好jdk和hadoop的完全分布式集群(安装步骤见链接: link集群规划在 hadoop1、hadoop2 和 hadoop3 三个节点上部署 Zookeeper解压安装step1:上传zookeeper安装包到hadoop1主机的/opt/soft文件下,这里使用CDH版本step2:解压zookeeper-3.4.5-cdh5.14.2.tar.gzstep3:移动至install文件夹下mv soft/zookeeper-3.4.5-cdh5.14.2 install

2020-07-07 19:46:33 493

原创 Hadoop集群搭建(完全分布式)

集群准备1、准备3台客户机(关闭防火墙、静态ip,主机映射、主机名称),主机名称分别为Hadoop1,hadoop2,hadoop32、安装jdk3、配置ssh,免密登录4、配置时间同步集群规划Hadoop1hadoop2hadoop3HDFSNameNode DataNodeDataNodeSecondaryNameNode DataNodeTARNNodeManagerResourceManager NodeManagerNodeManager

2020-07-05 20:57:33 179

原创 HBASE安装与配置步骤(伪分布式)

前提条件要先安装对应版本的hadoop和zookeeper,本次安装hbase-1.2.0-cdh5.14.2版本安装与配置步骤step1:将安装包拖拽至虚拟机(liunx系统)的opt文件夹下,并解压[root@hmm opt]# tar -zxf hbase-1.2.0-cdh5.14.2.tar.gzstep2:将加压好的文件复制到soft文件夹下,并重命名为hbase120[root@hmm opt]# cp hbase-1.2.0-cdh5.14.2 soft/hbase120s

2020-06-19 18:02:30 2324

原创 java调用mysql函数与存储过程

mysql创建函数 delimiter $ create function func_sum(num1 int,num2 int) returns int begin declare res int; set res=num1+num2; return res; end$ delimiter ;java调用mysql函数 /** * 用java调mysql函数 **/ public static void main(String[] args) thr

2020-06-19 11:06:23 852

原创 Hive UDF函数构建(之一)

UDF函数构造一、概述二、UDF类型三、UDF开发流程1、继承UDF类或GenericUDF类2、重写evaluate()方法并实现函数逻辑3、编译打包为jar文件4、复制到正确的HDFS路径5、使用jar创建临时/永久函数6、调用函数一、概述UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。Hive可以允许用户编写

2020-06-16 20:18:44 546

原创 hive之内置函数(常用函数)

内置函数标准函数字符函数类型转换函数数学函数日期函数集合函数条件函数聚合函数表生成函数标准函数字符函数值函数描述举例结果stringconcat字符串连接函数select concat(‘abc’,‘cd’,‘e’)abccdestringinstrhahaselect instr(‘abcdabcd’,‘cd’)3stringlength字符串长度select length(‘abcdef’)6stringlocatehaha

2020-06-15 23:50:15 463

转载 hive之窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over字句之前,一定要注意:在SQL处理中,窗口函数都是最后一步执行,而且

2020-06-15 08:45:51 193

原创 hive导入数据的方式

本地文件导入到hive表中load data local inpath ‘/opt/mydata.csv’ overwrite into table mydemo.gaga;在建表的时候,将hdfs中的数据(比如text、csv文件)导入到新建的表中CREATE EXTERNAL TABLE IF NOT EXISTS categories (category_id int,category_department_id int,category_name varchar(45))ROW F.

2020-06-12 00:06:10 875

原创 hive数据排序之order by、sort by、distribute by和cluster by的介绍与区别

order byorder by (asc|desc)类似于标准的sqlorder by是全局排序,且只会使用一个Reducer干活。速度很慢,使用前要做好数据过滤的工作,否则就等着加班吧。支持使用case when或者表达式就是,order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。所以,数据量很大时,速度就会很慢,如果必须要使用order by进行排序,请做好数据的过滤工作。sort bysort bysort by是局部排序,会对每个Re

2020-06-11 19:31:22 397

原创 Zookeeper、hive安装、配置、初始化及启动

Step1:将zookeeper和hive的压缩包解压[root@hmm opt]# tar -zxf zookeeper-3.4.5-cdh5.14.2.tar.gz [root@hmm opt]# tar -zxf hive-1.1.0-cdh5.14.2.tar.gzStep2:将解压文件移动至soft文件夹下[root@hmm opt]# mv zookeeper-3.4.5-cdh5.14.2 soft/zk345[root@hmm opt]# mv hive-1.1.0-cdh5.1

2020-06-09 20:25:36 745

原创 java代码实现文件在hdfs上的上传与下载

public class MyReadAndWrite { static FileSystem fs; static { try { fs=FileSystem.get(new URI("hdfs://192.168.56.122:9000"),new Configuration()); } catch (IOException e) { e.printStackTrace(); } catch

2020-06-07 15:44:10 794

原创 Hadoop之HDFS集群吞吐量测试

Hadoop官方在Hadoop安装包的share/hadoop/mapreduce/路径下提供了TestDFSIO工具,专门用于测试HDFS的吞吐量。Hadoop版本2.6.0(1)HDFS写性能测试测试命令hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.7-tests.jar TestDFSIO -write -nrFiles 10 -fileSize

2020-06-07 15:19:52 713

原创 logstash之嵌套json解析及扁平化处理

需解析的原始数据123456|login_event|{"username":"zs","age":"18","hmm":{"likes":"eat"}}|192.168.57.116目标格式"userid":"123456","event_name":"login_event","username":"zs","age":"18","likes":"eat","ipaddr":"192.168.57.116"logstash配置文件input { file { path

2020-06-03 04:06:40 1524

原创 hdfs基本命令

1、新建文件夹[root@hmm hadoop260]# hdfs dfs -mkdir /mydemo2、将文件从虚拟机上放到hdfs中[root@hmm hadoop260]# hdfs dfs -put /opt/user103.log /mydemo/hmm3、下载文件到本地[root@hmm hadoop260]# hdfs dfs -get /mydemo/hmm/user103.log /opt/4、删除文件[root@hmm hadoop260]# hdfs dfs -r

2020-06-02 20:20:27 200

原创 liunx设置本机无密登录

1、生成公私钥,公钥为钥匙,私钥为锁,使用rsa加密算法[root@hmm ~]# ssh-keygen -t rsa -P ''2、查看生成的公司密钥,id_rsa 为私钥,id_rsa.pub为公钥[root@hmm ~]# cd ~/.ssh/[root@hmm .ssh]# lsid_rsa id_rsa.pub3、将公钥文件拷贝至本机authorized_keys文件夹下[root@hmm .ssh]# cat id_rsa.pub >> authorized_ke

2020-06-02 17:36:24 104

原创 Hadoop环境架设(伪分布式)

Hadoop环境架设(伪分布式)step1:解压step2:修改5个配置文件step3:配置全局配置文件step4:激活该全局配置文件step5:格式化namenodestep6:启动step7:查看是否安装成功Jdk(建议使用JDK 1.8.11)Tar hadoop.tar.gzstep1:解压1、tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz2、mv hadoop-2.6.0-cdh5.14.2 soft/hadoop260step2:修改5个配置文件1

2020-06-01 15:21:15 274

原创 linux常用命令简单介绍

目录操作命令1、 pwd:查看当前所在目录2、 cd:打开目录3、 ls-a:查看目录下文件4、 ll:以列的方式显示目录下的文件列表5、 mkdir:创建文件目录****mkdir -p BBB/Test在工作目录下的BBB目录中,建立一个为Test的子目录。如BBB目录原本不存在,则建立一个。如不加-p,且原本目录不存在,则产生错误。6、 rm -rf:删除文件或目录**rm -rf 要删除的文件名或目录(删除当前问价下所有的文件及目录,并 且是直接删除,无需逐一确认)rm

2020-05-14 23:07:25 224

原创 安装、配置以及启动VitualBox虚拟机

1、打开Oracle VM VirtualBox编辑器,点击新建2、填写虚拟机名称、选择虚拟机路径、类型、版本已经内存大小,点击创建3、选择虚拟硬盘的大小,勾选动态分配,点击创建4、创建虚拟机成功5、设置虚拟机,右击设置5.1 设置常规,将共享粘贴板与拖放都设置为双向5.2 设置启动顺序,先光驱,再硬盘,处理器拖动不得超出绿线范围5.3 设置显示控制器为VBoxVGA5.4 设置存储,选择没有光盘,右侧属性点击蓝色光盘图标,选择Gentos7镜像5.5 设置网路:网卡1,

2020-05-14 01:03:47 951

原创 虚拟机设置无密登录

1、 复制一个虚拟机的镜像出来2、 启动改虚拟机3、 查看当前虚拟机ip a4、 修改本地名称5、 修改hosts6、 修改ip地址6、1进入6、2修改ip地址6、3重启网络6.4 再ip a ,此时的ip地址变为192.168.56.1176.5 ping网络 ping www.baidu.comCtrl+c 手动停止配置完成7、 启动另外一台虚拟机8、 同样,进入hosts,输入如下,保存并退出9、 呼叫hmm1 ssh hmm1 输入密码,就切换到了

2020-05-13 23:35:20 573

原创 linux系统软件安装与项目发布

准备:需先下载apache-maven-3.6.1-bin.tar.gz、apache-tomcat-8.5.54.tar.gz、jdk-8u111-linux-x64.tar.gz1、利用xshell或者是MobaXterm,将下载下来的3个文件拖拽至虚拟机的opt文件夹下2、在xshell中解压这个3个文件[root@humiaomiao opt]# tar -zxf apache-tomcat-8.5.54.tar.gz [root@humiaomiao opt]# tar -zxf

2020-05-13 23:14:41 367

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除