茶壶妙
码龄7年
关注
提问 私信
  • 博客:18,543
    18,543
    总访问量
  • 26
    原创
  • 731,796
    排名
  • 7
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2018-05-23
博客简介:

weixin_42289266的博客

查看详细资料
个人成就
  • 获得7次点赞
  • 内容获得0次评论
  • 获得82次收藏
创作历程
  • 27篇
    2020年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

在Spark Streaming中使用Direct方式接收Kafka主题数据,使用DStream完成词频统计

总体介绍:Direct方式采用Kafka简单的consumer api方式来读取数据,这种方法不再需要专门Receiver来持续不断读取数据。当batch任务触发时,由Executor读取数据,并参与其他Executor的数据计算过程中去。driver老决定读取多少offsets,并将offsets交由checkpoints来维护。将触发下次batch任务,再由Executor读取Kafka数据并计算。Direct方式的优点:1、简化并行读取:如果要读取多partition,不需要创建多个输入DStre
原创
发布博客 2020.08.20 ·
340 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Streaming通过push方式对接flume数据源

总的思路:以netcat作为flume数据源,通过push的方式将flume数据推送至spark。idea编写flume推送数据的代码,打成jar包step1:pom.xml依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche
原创
发布博客 2020.08.20 ·
244 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka 常用操作命令

1、建立topic(消息队列)kafka-topics.sh--create --zookeeper 192.168.***.116:2181 //你的zookeeper的IP--topic mydemo //消息队列的名称--replication-factor 1 //副本数--partitions 1 //分区数2、检查队列是否创建成功kafka-topics.sh--zookeep
原创
发布博客 2020.08.11 ·
277 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用Flume将数据sink到kafka

1、编写flume配置文件a5.channels=c5a5.sources=s5a5.sinks=k5a5.sources.s5.type=spooldira5.sources.s5.spoolDir=/opt/retail_db-csv/datas //要导入kafka的数据的路径a5.sources.s5.interceptors=head_filter //使用拦截器将要导入数据的表头去掉a5.sources.s5.interceptors.head_filter.type=reg
原创
发布博客 2020.08.06 ·
1873 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Flume -自定义Interceptor(拦截器)

1、引入 pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4
原创
发布博客 2020.08.06 ·
344 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark SQL API——使用Case Class创建Dataset

package com.njbdqn.mydatasetimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions._/** * 使用dataSet完成零售商店指标统计 * 1、使用RDD装在零售商店业务数据 * customers.csv、orders.csv、order_items.csv、products.csv * 2、定义样例类 * 将RDD转成DataSet */object
原创
发布博客 2020.07.31 ·
521 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HBase Shell 操作命令大全

HBase操作基本操作1、进入HBase客户端命令行2、查看版本3、查看集群状态4、查看5、帮助表的操作1、创建命名空间2、查看命名空间2、创建表3、列出所有表4、使用通配符的方式列出所有表5、查看表信息6、判断表是否存在7、表中插入数据8、根据rowkey获取数据9、获取指定CF(列族)数据的两种方式10、获取指定列的数据11、更新数据12、修改多版本存储13、多版本数据查询14、全扫描15、指定rowkey范围查询16、统计17、删除语法18、删除整行19、删除一个单元格的值20、删除一列21、删除列族
原创
发布博客 2020.07.23 ·
1356 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Zookeeper完全分布式环境搭建(安装和配置)

前提条件安装好jdk和hadoop的完全分布式集群(安装步骤见链接: link集群规划在 hadoop1、hadoop2 和 hadoop3 三个节点上部署 Zookeeper解压安装step1:上传zookeeper安装包到hadoop1主机的/opt/soft文件下,这里使用CDH版本step2:解压zookeeper-3.4.5-cdh5.14.2.tar.gzstep3:移动至install文件夹下mv soft/zookeeper-3.4.5-cdh5.14.2 install
原创
发布博客 2020.07.07 ·
534 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop集群搭建(完全分布式)

集群准备1、准备3台客户机(关闭防火墙、静态ip,主机映射、主机名称),主机名称分别为Hadoop1,hadoop2,hadoop32、安装jdk3、配置ssh,免密登录4、配置时间同步集群规划Hadoop1hadoop2hadoop3HDFSNameNode DataNodeDataNodeSecondaryNameNode DataNodeTARNNodeManagerResourceManager NodeManagerNodeManager
原创
发布博客 2020.07.05 ·
213 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HBASE安装与配置步骤(伪分布式)

前提条件要先安装对应版本的hadoop和zookeeper,本次安装hbase-1.2.0-cdh5.14.2版本安装与配置步骤step1:将安装包拖拽至虚拟机(liunx系统)的opt文件夹下,并解压[root@hmm opt]# tar -zxf hbase-1.2.0-cdh5.14.2.tar.gzstep2:将加压好的文件复制到soft文件夹下,并重命名为hbase120[root@hmm opt]# cp hbase-1.2.0-cdh5.14.2 soft/hbase120s
原创
发布博客 2020.06.19 ·
2347 阅读 ·
1 点赞 ·
0 评论 ·
45 收藏

java调用mysql函数与存储过程

mysql创建函数 delimiter $ create function func_sum(num1 int,num2 int) returns int begin declare res int; set res=num1+num2; return res; end$ delimiter ;java调用mysql函数 /** * 用java调mysql函数 **/ public static void main(String[] args) thr
原创
发布博客 2020.06.19 ·
885 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Hive UDF函数构建(之一)

UDF函数构造一、概述二、UDF类型三、UDF开发流程1、继承UDF类或GenericUDF类2、重写evaluate()方法并实现函数逻辑3、编译打包为jar文件4、复制到正确的HDFS路径5、使用jar创建临时/永久函数6、调用函数一、概述UDF函数其实就是一个简单的函数,执行过程就是在Hive转换成MapReduce程序后,执行java方法,类似于像MapReduce执行过程中加入一个插件,方便扩展。UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF。Hive可以允许用户编写
原创
发布博客 2020.06.16 ·
590 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive之内置函数(常用函数)

内置函数标准函数字符函数类型转换函数数学函数日期函数集合函数条件函数聚合函数表生成函数标准函数字符函数值函数描述举例结果stringconcat字符串连接函数select concat(‘abc’,‘cd’,‘e’)abccdestringinstrhahaselect instr(‘abcdabcd’,‘cd’)3stringlength字符串长度select length(‘abcdef’)6stringlocatehaha
原创
发布博客 2020.06.15 ·
527 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive之窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.在深入研究Over字句之前,一定要注意:在SQL处理中,窗口函数都是最后一步执行,而且
转载
发布博客 2020.06.15 ·
223 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive导入数据的方式

本地文件导入到hive表中load data local inpath ‘/opt/mydata.csv’ overwrite into table mydemo.gaga;在建表的时候,将hdfs中的数据(比如text、csv文件)导入到新建的表中CREATE EXTERNAL TABLE IF NOT EXISTS categories (category_id int,category_department_id int,category_name varchar(45))ROW F.
原创
发布博客 2020.06.12 ·
918 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive数据排序之order by、sort by、distribute by和cluster by的介绍与区别

order byorder by (asc|desc)类似于标准的sqlorder by是全局排序,且只会使用一个Reducer干活。速度很慢,使用前要做好数据过滤的工作,否则就等着加班吧。支持使用case when或者表达式就是,order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。所以,数据量很大时,速度就会很慢,如果必须要使用order by进行排序,请做好数据的过滤工作。sort bysort bysort by是局部排序,会对每个Re
原创
发布博客 2020.06.11 ·
440 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Zookeeper、hive安装、配置、初始化及启动

Step1:将zookeeper和hive的压缩包解压[root@hmm opt]# tar -zxf zookeeper-3.4.5-cdh5.14.2.tar.gz [root@hmm opt]# tar -zxf hive-1.1.0-cdh5.14.2.tar.gzStep2:将解压文件移动至soft文件夹下[root@hmm opt]# mv zookeeper-3.4.5-cdh5.14.2 soft/zk345[root@hmm opt]# mv hive-1.1.0-cdh5.1
原创
发布博客 2020.06.09 ·
785 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

java代码实现文件在hdfs上的上传与下载

public class MyReadAndWrite { static FileSystem fs; static { try { fs=FileSystem.get(new URI("hdfs://192.168.56.122:9000"),new Configuration()); } catch (IOException e) { e.printStackTrace(); } catch
原创
发布博客 2020.06.07 ·
818 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hadoop之HDFS集群吞吐量测试

Hadoop官方在Hadoop安装包的share/hadoop/mapreduce/路径下提供了TestDFSIO工具,专门用于测试HDFS的吞吐量。Hadoop版本2.6.0(1)HDFS写性能测试测试命令hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.7-tests.jar TestDFSIO -write -nrFiles 10 -fileSize
原创
发布博客 2020.06.07 ·
740 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

logstash之嵌套json解析及扁平化处理

需解析的原始数据123456|login_event|{"username":"zs","age":"18","hmm":{"likes":"eat"}}|192.168.57.116目标格式"userid":"123456","event_name":"login_event","username":"zs","age":"18","likes":"eat","ipaddr":"192.168.57.116"logstash配置文件input { file { path
原创
发布博客 2020.06.03 ·
1581 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多