- 博客(17)
- 收藏
- 关注
转载 spark Streaming +kafka 的offset数据保存MySQL、hbase、redis
Kafka做为一款流行的分布式发布订阅消息系统,以高吞吐、低延时、高可靠的特点著称,已经成为Spark Streaming常用的流数据来源。其实说白了,官方提供的思路就是,把JavaInputDStream转换为OffsetRange对象,该对象具有topic对应的分区的所有信息,每次batch处理完,Spark Streaming都会自动更新该对象,所以你只需要找个合适的地方保存该对象(比如...
2020-04-11 22:21:21 815
转载 Flink 使用 connect 实现双流匹配
阅读本文需要提前了解 connect 和 ProcessFunction 相关的知识。如果不了解的同学可以先通过官网或其他资料熟悉一下。一、案例分析在生产环境中,我们经常会遇到双流匹配的案例,例如:一个订单包含了订单主体信息和商品的信息。 外卖行业,一个订单包含了订单付款信息和派送信息。 互联网广告行业,一次点击包含了用户的点击行为日志和计费日志。 等其他相关的案例上述这些案例...
2020-04-11 22:11:17 1518 2
转载 phoenix建表映射有命名空间的hbase表
1.先开启schema与namespace的对应关系在phoenix中与hbase的命名空间相对应的是schema概念,默认是没有开启的,需要在hbase的hbase-site.xml中增加以下配置项<property> <name>phoenix.schema.isNamespaceMappingEnabled</name> <value...
2020-04-11 21:54:36 591
转载 Phoenix建表建序列及常用优化
Phoenix建表及优化CREATE TABLE IF NOT EXISTS table("id" bigint not null primary key,info."name" varchar,info."age" integer,info."address" varchar,info."phone" bigint,info."birthday" bigint) SALT_B...
2020-04-11 21:41:43 833 1
转载 Spark 性能调优--资源调优
# 资源调优在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置**Spark作业基本运行原理**1. spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程2. 根据你使用的部署模式(deploy-mode:client/cluster)不同,Driver...
2020-04-11 21:29:28 172
转载 kafka如何扩容服务器、重新分区Partition
1.扩容在新的物理机上安装kafka程序,修改config/server.properties文件里的broker.id必须在集群中唯一,修改其他必要的配置项,其中zookeeper.connect配置项,写上kafka集群现在使用的zookeeper集群的地址。然后启动kafka就可以加入到集群中了。但是新加入的机器只能对新产生的topic起作用,对已有的topic在没有做处理前,是不会承...
2020-04-11 21:23:45 215
转载 关于在elasticSearch中使用聚合查询后只显示10个bucket的问题
先看下面es查询语句{ "size": 0, "aggs" : { "all_articleId" : { "terms" : { "field" : "articleId" } } }} 得到的结果:...
2020-04-11 20:05:05 3262 1
原创 hive--truncate删除表中的数据
delect:用于删除特定行条件,你可以从给定表中删除所有的行TRUNCATE:truncate用于删除所有的行,这个行为在hive元存储删除数据是不可逆的DROP:删除hive中的表truncate 不能删除外部表!因为外部表里的数据并不是存放在Hive中的warehouse中truncate table table_name;例子:t
2016-10-11 14:56:37 2977
转载 MYSQL解决select ... into outfile '..' mysql写文件权限问题
select FQQ,FScoreCount from Tbl_User into outfile "/tmp/terminatedtest.txt" fields terminated by ",";select * from test into outfile '/home/user/test.txt'在linux(centos)下 ,启动了mysql 并给用户文件读写
2016-08-17 15:51:36 7368
原创 hadoop写文件过程
写文件注:为编辑方便以下NameNode和SecondaryNode用NN和SN表示客户端上传文件是,NN首先往edits.log文件中记录源数据操作日志。客户端开始上传文件完成后返回成功信息给NN,NN就在内存中写入这次上传操作的新产生的元数据信息。每当edits.log写满时,需要将这一段时间的心的元数据刷到fsimage文件中。 SN的作用:合并edits.log和fsimage
2016-06-24 13:14:03 300
原创 kafka以及storm-kafka整合
kafka笔记1/kafka是一个分布式的消息缓存系统2/kafka集群中的服务器都叫做broker3/kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4/kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5/每
2016-05-14 14:07:21 1934
原创 c:forEach varStatus="status"中 varStatus的属性简介
varStatus="status">中varStatus的属性简介varStatus是jstl循环标签的一个属性,varStatus属性。就拿varStatus=“status”来说,事实上定义了一个status名的对象作为varStatus的绑定值。该绑定值也就是status封装了当前遍历的状态,比如,可以从该对象上查看是遍历到了第几个元素:${status.count}
2016-05-09 22:01:07 548
原创 storm安装(三台)
1、安装一个zookeeper集群2、上传storm的安装包,解压3、修改配置文件storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "weekend05" - "weekend06" - "weekend07"#nimbus所在的主机名nimbus
2016-04-30 14:33:36 346
原创 hive启动失败的小问题总结以及hive
Hive installation issues: Hive metastore database is not initialized
2016-04-29 20:18:22 2223
原创 hbase shell示例
进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列族info中添
2016-04-29 15:07:13 331
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人