jacker_剑客-CSDN博客

转载 spark Streaming +kafka 的offset数据保存MySQL、hbase、redis

Kafka做为一款流行的分布式发布订阅消息系统，以高吞吐、低延时、高可靠的特点著称，已经成为Spark Streaming常用的流数据来源。其实说白了，官方提供的思路就是，把JavaInputDStream转换为OffsetRange对象，该对象具有topic对应的分区的所有信息，每次batch处理完，Spark Streaming都会自动更新该对象，所以你只需要找个合适的地方保存该对象（比如...

2020-04-11 22:21:21 815

转载 Flink 使用 connect 实现双流匹配

阅读本文需要提前了解 connect 和 ProcessFunction 相关的知识。如果不了解的同学可以先通过官网或其他资料熟悉一下。一、案例分析在生产环境中，我们经常会遇到双流匹配的案例，例如：一个订单包含了订单主体信息和商品的信息。外卖行业，一个订单包含了订单付款信息和派送信息。互联网广告行业，一次点击包含了用户的点击行为日志和计费日志。等其他相关的案例上述这些案例...

2020-04-11 22:11:17 1518 2

转载 phoenix建表映射有命名空间的hbase表

1.先开启schema与namespace的对应关系在phoenix中与hbase的命名空间相对应的是schema概念，默认是没有开启的，需要在hbase的hbase-site.xml中增加以下配置项<property> <name>phoenix.schema.isNamespaceMappingEnabled</name> <value...

2020-04-11 21:54:36 591

转载 Phoenix建表建序列及常用优化

Phoenix建表及优化CREATE TABLE IF NOT EXISTS table("id" bigint not null primary key,info."name" varchar,info."age" integer,info."address" varchar,info."phone" bigint,info."birthday" bigint) SALT_B...

2020-04-11 21:41:43 833 1

转载 Spark 性能调优--资源调优

# 资源调优在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置**Spark作业基本运行原理**1. spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程2. 根据你使用的部署模式（deploy-mode:client/cluster）不同，Driver...

2020-04-11 21:29:28 172

转载 kafka如何扩容服务器、重新分区Partition

1.扩容在新的物理机上安装kafka程序，修改config/server.properties文件里的broker.id必须在集群中唯一，修改其他必要的配置项，其中zookeeper.connect配置项，写上kafka集群现在使用的zookeeper集群的地址。然后启动kafka就可以加入到集群中了。但是新加入的机器只能对新产生的topic起作用，对已有的topic在没有做处理前，是不会承...

2020-04-11 21:23:45 215

转载关于在elasticSearch中使用聚合查询后只显示10个bucket的问题

先看下面es查询语句{ "size": 0, "aggs" : { "all_articleId" : { "terms" : { "field" : "articleId" } } }} 得到的结果：...

2020-04-11 20:05:05 3262 1

原创 hive--truncate删除表中的数据

delect:用于删除特定行条件,你可以从给定表中删除所有的行TRUNCATE:truncate用于删除所有的行，这个行为在hive元存储删除数据是不可逆的DROP:删除hive中的表truncate 不能删除外部表！因为外部表里的数据并不是存放在Hive中的warehouse中truncate table table_name;例子：t

2016-10-11 14:56:37 2977

转载 MYSQL解决select ... into outfile '..' mysql写文件权限问题

select FQQ,FScoreCount from Tbl_User into outfile "/tmp/terminatedtest.txt" fields terminated by ",";select * from test into outfile '/home/user/test.txt'在linux（centos）下，启动了mysql 并给用户文件读写

2016-08-17 15:51:36 7368

原创 hadoop写文件过程

写文件注：为编辑方便以下NameNode和SecondaryNode用NN和SN表示客户端上传文件是，NN首先往edits.log文件中记录源数据操作日志。客户端开始上传文件完成后返回成功信息给NN，NN就在内存中写入这次上传操作的新产生的元数据信息。每当edits.log写满时，需要将这一段时间的心的元数据刷到fsimage文件中。 SN的作用：合并edits.log和fsimage

2016-06-24 13:14:03 300

原创 kafka以及storm-kafka整合

kafka笔记1/kafka是一个分布式的消息缓存系统2/kafka集群中的服务器都叫做broker3/kafka有两类客户端，一类叫producer（消息生产者），一类叫做consumer（消息消费者），客户端和broker服务器之间采用tcp协议连接4/kafka中不同业务系统的消息可以通过topic进行区分，而且每一个消息topic都会被分区，以分担消息读写的负载5/每

2016-05-14 14:07:21 1934

原创 c:forEach varStatus="status"中 varStatus的属性简介

varStatus="status">中varStatus的属性简介varStatus是jstl循环标签的一个属性，varStatus属性。就拿varStatus=“status”来说，事实上定义了一个status名的对象作为varStatus的绑定值。该绑定值也就是status封装了当前遍历的状态，比如，可以从该对象上查看是遍历到了第几个元素：${status.count}

2016-05-09 22:01:07 548

原创 storm安装（三台）

1、安装一个zookeeper集群2、上传storm的安装包，解压3、修改配置文件storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "weekend05" - "weekend06" - "weekend07"#nimbus所在的主机名nimbus

2016-04-30 14:33:36 346

原创 hive启动失败的小问题总结以及hive

Hive installation issues: Hive metastore database is not initialized

2016-04-29 20:18:22 2223

原创 hbase shell示例

进入hbase命令行./hbase shell显示hbase中的表list创建user表，包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息，row key为rk0001，列族info中添

2016-04-29 15:07:13 331

原创 hbase表结构

2016-04-29 15:04:19 488

原创 hbase配置（基于HA）

基于HA的hbase配置，普通分布式可以自行修改配置文件

2016-04-29 14:53:45 431

ljk740462630的博客