重启试试..-CSDN博客

原创 streaming消费kafka手动维护offset到redis

Spark Streaming 集成Kafka，允许从Kafka中读取一个或者多个Topic的数据，一个Kafka Topic包含一个或者多个分区，每个分区中的消息顺序存储，并使用offset来标记消息位置，开发者可以在Spark Streaming应用中通过offset来控制数据的读取位置。———————————————— 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

2024-11-19 03:34:20 575

原创 hive3.1.2编译spark3安装包

此安装包是《去破解站长》在公司真实生产环境所使用的安装包。引言：Hive引擎包括：默认MR、tez、spark1、Hive on Spark1、Hive onSpark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。2、Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkSQL语法，Spark负责采用RDD执行。2、hive3.1.2编译使用hive3.1

2024-11-18 16:22:01 854 1

原创正则表达式

正则表达式·正则简介1.使用特殊的符号来做校验，目标是操作字符串。例如∶手机号码、邮箱、身份证的校验等·使用正则表达式的优缺点1.使用特殊的符号来做校验，目标是操作字符串。例如∶手机号码、邮箱、身份证的校验等 ⒉缺点∶虽然能简化书写，但是正则表达式的阅读性较差语法注意带\要加两个一个转义\ \d[abc] 表示字符串只能由一个字符 a或者b或者c[a-zA-Z]字符串的字符只能是小写a到z 大写A到Z{6}只能出现6次{6,}至少出现6次{6,12}至少出现6次但不能

2020-11-05 20:58:59 399

原创 Saprk的shuffer详解

<Spark 的ShuffleManager>Spark 1.6 和 1.6之前的有两种 ShuffleManager(1) hashShuffleManager 最原始的 Spark2.3 之前都有 2.3之后就留下 SortBuffer(2) sortShuffleManager 1.2引入的 2.3之后只留下这一个 Buffer了《hashShuff...

2020-09-29 10:39:23 190

原创 Redis知识点总结

1.Redis(NoSQL)简介1、NoSQL，泛指非关系型的数据库，NoSQL数据库的四大分类:键值(Key-Value)存储数据库:这一类数据库主要会使用到-一个哈希表,这个表中有一个特定的键和-一个指针指向特定的数据。如Redis, Voldemort,2、Oracle BDB列存储数据库:这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在，但是它们的特点是指向了多个列...

2020-09-27 14:33:59 211 1

原创 Flink灵魂40问

- 1、简单介绍一下Flinkflink是纯实时的计算引擎天生支持状态管理- 2、Flink相比传统的Spark Streaming有什么区别？和Spark中的structured streaming(dataFrame)相比呢？答：Flinksparkstreming 底层处理数据默认只支持procsstime事件 streming是伪实时而flink答：steam是对数据的纯实时处理 streaming不支持复杂的时间处理不支持操控task的状态算子的状态而flink支持-

2020-09-14 17:33:03 273

原创 hbase常用命令

创建表创建库https://www.cnblogs.com/caiba/p/10986029.htmlhttps://www.baidu.com/link?url=79iInv5hH6jklIMoliofWz3eeWZ4T3Seut57X3YLXHoBUBFOs59JI8TFpFCIP_9m2sAWyYy2rrXZFzFAxMDGKa&wd=&eqid=c74ab0bf0006e93e000000025f0678b9https://blog.csdn.net/wuliu_fo

2020-07-09 10:03:08 1195

原创 hive常用命令

启动hiveservice2服务进入bin 执行 ./hive --service hiveservice2

2020-07-07 09:14:22 357

原创 Mongodb安装部署

第一步下载安装包tgz包默认安装在执行命令的目录curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz第二步解压tar -zxvf mongodb-linux-x86_64-3.0.6.tgz 第三步创建文件1.进入mongodb安装目录执行mkdir -p data/db修改文件权限为 777chmod 777 datachmod 777 db在根目录下mkdir logscd l

2020-07-04 16:57:38 191

原创 OpenResty安装与部署

目标:实现Openresty的安装部署下载OpenResty我们可以在官方(https://openresty.org/cn/)下载Windows下载Win32 所有版本都是用Yichun Zhang的PGP公钥A0E98066签发的。openresty-1.13.6.1-win32.zip 12MB PGP - 2017年11月13日Linux下载Windows版本安装直接解压安装，启动时，需要nginx.exe看到这个说明安装成功LINUX版本安装我这里用的版本openre

2020-07-02 14:16:47 755

原创 zookeeper知识点总结

Zookeeper简介Zookeeper 是 Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务 service包含一个简单的原语集，分布式应用程序可以基于它实现：攘其外状态下大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程（如资源、任务分配等）目前，大部分应用需要开发私有的协调程序，缺乏一个通用的机制协调程序的反复编写浪费，且难以形成通用、伸缩性好的协调器-ZooKeeper：提供通用的分布式锁服务，用以协调分布式应用-

2020-05-27 15:43:38 283

原创 Hbase面试题

1.hbase的特点是什么？答：1)hbase是一个分布式的，基于列式存储的数据库，基于hadoop的hdfs存储，zookeeper进行管理。2)hbase 适合存储半结构化或非结构化的数据，对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。3)hbase为null的数据不会被存储4)基于的表包含rowKey，时间戳和列族，新写入数据时，时间戳更新，同时可以查询到以前的版本5）hbase是主从结构，hmaster作为主节点，hregionServer作为从节点6）hbase存储

2020-05-27 15:30:12 562

原创 Hbase表设计

1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。1.2 Row Key HBase中row key用来检索表中的记录，支持以下三种方式：• 通过单个row key访

2020-05-26 15:26:20 377

原创 HBase命令

HBase Shell通过 hbase shell命令进入HBase 命令行接口（通过help可查看所有命令的支持以及帮助手册）

2020-05-26 14:36:51 166

原创 Hbase知识点总结

非关系型数据库知识面扩展Cassandra hbase mongodbCouchdb，文件存储数据库Neo4j非关系型图数据库HbaseHadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）H...

2020-05-26 14:30:06 284

原创 flume参数详解

2020-05-24 14:02:40 322

原创 MapReduce运行流程

MapReducer的执行流程MapReducer工作流程图：MapReducer工作流程：------------------------------------------------mapper的工作--------------------------------------------1.mapper开始运行，调用InputFormat组件读取文件逻辑切片（逻辑切片不是block块，切片大小默认和block块大小相同可以是block大小的110%）2.经过inputformat组件处理

2020-05-23 13:29:38 247

原创 a标签传参数为汉字时乱码

在tomcat的server.xml中找到URIEncoding=“UTF-8”

2020-04-13 15:48:49 1000

原创 eclipse如何配置tomcat

eclipse环境下如何配置tomcat服务器：打开Eclipse，单击“Window”菜单，选择下方的“Preferences”，看是否存在“Server”选项，我目前使用的是eclipse版，不带额外插件，一些使用的Myeclipse集成了J2EE可以忽略此过程。我使用的EclipsePreferences下是没有Server选项，此时需要安装server插件，我的上一篇博客介绍了如何安装s...

2020-03-10 16:36:45 583

原创 The import javax.servlet cannot be resolved解决方案

网上提供的方法是，在Eclipse中，右击项目，选择Build Path->configure build path->Libraries->Add External JARs，找到你计算机中tomcat的解压路径，在lib文件夹下选中"servlet-api.jar"，添加点击“确定”...

2020-03-10 15:51:33 515 1

原创 redis集群连接java

主从模式连接java直接上干货 cao //指定业务查询业务: SYS USER SEL AGE 25 //指定业务查询业务: SYS USER SEL SEX m //指定业务查询业务: SYS_ USER SEL SEX wpublic class Redis_API { public static void main(String[] args) { J...

2020-03-04 17:23:33 366 1

原创 gem install rubygems时报错

因为 ruby版本低每次使用gem命令的时候都会报这种错误就是因为 ruby太低。还有这种错误如何解决、更换 yum源原因，ruby版本小于了2.3.0换yum源安装第一步 yum install centos-release-scl-rh会在/etc/yum.repos.d/目录下多出一个CentOS-SCLo-scl-rh.repo源第二步 yum install ...

2020-03-04 15:21:26 1984

原创 kafka与SparkStreaming整合

1、Receiver模式接收器模式，必须有一个Task接收数据接收器模式的话很容易造成丢失数据。如果接收数据的期间，Driver挂掉，那么在Excuter内存中的数据多多少少会丢失一些，WAL机制优化机制，可以将数据存储在Hdfs一份，但一定要设置Checkpoint 持久化才可以放磁盘不tm开启放个屁。1.6之后这种模式就被移除了Direct模式处理数据就去拿，而不是...

2020-03-03 21:00:42 304

原创 redis集群部署

按照步骤一步一步来即可。。

2020-03-01 14:41:30 528

原创 redis高级命令

redis高级命令可以给已经设置过值的key设置值的过期时间，explre key 10我们默认用的是第0个数据库，可以使用select 1 来进行切换redis 3.x版本以后，集群模式，根据自己的需求在不同的数据库中保存指定的数据，虽然redis的数据库分为16快，但可能后面的数据库都是没有容量的，redis也可以不分，都存到第0个数据库中，开启AOF存到硬盘如果硬盘满了的话，...

2020-03-01 14:30:39 192

原创 redis的常用命令

Redis的常用命令redis的数据类型redis-共分为五种基本数据类型: String、 Hash、 List、Set、 ZSet1.String类型简单就是一个key对应一个value启动Redis的命令指定一个conf文件就行bin/redis-server start /opt/module/tools_redis/etc/redis.conf查看是否启动成功...

2020-02-28 16:25:23 304

原创 kafka常用的命令

查看有那些topic进入到 bin目录1.查看topic./kafka-topics.sh --zookeeper node3:2181,node4:2181,node5:2181 --list2.创建topic./kafka topics.sh --topic new_top --partitions 3 zookeeper node3:2181,node4:2181,nod...

2020-02-26 16:22:24 419

原创二,八,十,十六进制超简单详解

1、进制的由来进制越大表达形式越简洁2、进制的特征二进制：由 0 ,1 组成。由 0b开头。八进制：由 0 ,1…7 组成。以 0 开头。十进制：由0 ,1…9组成。整数默认十进制。十六进制：由0,1…9,a,b,c,d,e,f(大小写均可)组成，由0x开头。3、超级干货举例：整数 12345 括号(n*n)括起来的表示 n的n次方 x :表示数学中的...

2020-02-26 13:07:08 4366

原创 idea同时打开多个项目详解

是什么项目就选什么

2020-02-25 10:48:49 738

原创 Spark创建DataFream的两种方式

方式 1：动态创建DataFream准备数据用于测试李三男 15李四女 16王五人妖 17赵六神 18代码 ********************第一步：先创建所需对象 final SparkConf conf = new SparkConf(); conf.setMaster("local"); conf.setAppName("tes...

2020-02-13 17:12:20 478

原创 Java代码中使用不同的SparkContext创建RDD的方式

方式 1：java中可以new JavaSparkContext（conf）这样创建 sparkContext对象方式 2：也可以用 SparkSession.builder().config(conf).getOrCreate().sparkContext()来创建对象方式1：创建rdd方式 parallelize(集合,int) makeRDD(集合,int) 来创建方式2：但...

2020-02-13 15:51:14 1315

原创 Spark资源结论

1.只要提交 applicton master 不管状态如何都会接着跑 Task 因为任务是在 work节点上跑到如果不指定 excutor 的核心数和内存默认是会使用集群的所有资源2.那样的话如果同时有两个 applicton应用程序那么第二个会等第一个执行完后 Excutor 才会执行第二个 applicton*****（重点）Spark 是 pipelline ...

2020-01-07 16:36:41 175

原创 Spark之累加器

<累加器>1.在外部定义的值无法在Executor 中进行累加最后在外部输出还是原来定义的值并没有进行累加所以用累加器累加器的用法 var acc=SparkContext(conf).logAccumulator在进行测试在算子中累加 acc.add(1) 这样每次进入方法就会加上1 最后在外部遍历变量 acc.value 就可以获取到累加器里面的值...

2020-01-07 16:35:52 209

原创 Spark之广播变量

广播变量 <广播变量>1.客户端的 driver 中有一个 list 如果 Executor Task要用到这个 list这时候在driver 创建一个 list广播变量这样会在 Executor 启动一个 blockManager 来管理 driver广播的变量（在driver一广播变量 Executor 的就会有这么一个广播变量了）下次每个 Task 回...

2020-01-07 16:35:10 317

原创 Hadoop之MapReduce

MapReduce 总结1：mapReduce 优点《具有易于编程、高容错性和高扩展性等优点》。1:高容错性：Mapreduce的设计初衷就是使程序能够部署在廉价的pc机器上，这就要求它具有很高的容错性。比如一个机器挂了，它可以把上面的计算任务转移到另一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由hadoop内部完成的2:高扩展性：项目当你的...

2019-12-05 20:14:37 260

原创 hadoop的安全模式

Hadoop的安全模式1：集群的安全模式1：namenode启动的时候，首先将映像文件(fsimage)载入内存，。并执行编辑日志(edits)中的各项操作。2：一旦在内存中成功建立文件系统元数据的映射，则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志3：此刻namenode运行在安全模式。即namenode的文件系统对于H...

2019-12-05 18:54:11 237

原创 hadoop知识点总结

1： hadoop 1.x由 hdfs 和 MapReduce 组成。2： hadoop 2.x由 hdfs 和 MapReduce 和 YARN三个分支组成。hdfs：NN Federation (联邦) 和 HA。hadoop 2.x 只支持2个节点HA。3：hadoop 3.x实现了一主多备。4: hadoop的发展史Hadoop的思想之源：Goo...

2019-12-05 17:04:15 293

春meng丫