自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 spark Streaming +kafka 的offset数据保存MySQL、hbase、redis

Kafka做为一款流行的分布式发布订阅消息系统,以高吞吐、低延时、高可靠的特点著称,已经成为Spark Streaming常用的流数据来源。其实说白了,官方提供的思路就是,把JavaInputDStream转换为OffsetRange对象,该对象具有topic对应的分区的所有信息,每次batch处理完,Spark Streaming都会自动更新该对象,所以你只需要找个合适的地方保存该对象(比如...

2020-04-11 22:21:21 815

转载 Flink 使用 connect 实现双流匹配

阅读本文需要提前了解 connect 和 ProcessFunction 相关的知识。如果不了解的同学可以先通过官网或其他资料熟悉一下。一、案例分析在生产环境中,我们经常会遇到双流匹配的案例,例如:一个订单包含了订单主体信息和商品的信息。 外卖行业,一个订单包含了订单付款信息和派送信息。 互联网广告行业,一次点击包含了用户的点击行为日志和计费日志。 等其他相关的案例上述这些案例...

2020-04-11 22:11:17 1518 2

转载 phoenix建表映射有命名空间的hbase表

1.先开启schema与namespace的对应关系在phoenix中与hbase的命名空间相对应的是schema概念,默认是没有开启的,需要在hbase的hbase-site.xml中增加以下配置项<property> <name>phoenix.schema.isNamespaceMappingEnabled</name> <value...

2020-04-11 21:54:36 591

转载 Phoenix建表建序列及常用优化

Phoenix建表及优化CREATE TABLE IF NOT EXISTS table("id" bigint not null primary key,info."name" varchar,info."age" integer,info."address" varchar,info."phone" bigint,info."birthday" bigint) SALT_B...

2020-04-11 21:41:43 833 1

转载 Spark 性能调优--资源调优

# 资源调优在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置**Spark作业基本运行原理**1. spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程2. 根据你使用的部署模式(deploy-mode:client/cluster)不同,Driver...

2020-04-11 21:29:28 172

转载 kafka如何扩容服务器、重新分区Partition

1.扩容在新的物理机上安装kafka程序,修改config/server.properties文件里的broker.id必须在集群中唯一,修改其他必要的配置项,其中zookeeper.connect配置项,写上kafka集群现在使用的zookeeper集群的地址。然后启动kafka就可以加入到集群中了。但是新加入的机器只能对新产生的topic起作用,对已有的topic在没有做处理前,是不会承...

2020-04-11 21:23:45 215

转载 关于在elasticSearch中使用聚合查询后只显示10个bucket的问题

先看下面es查询语句{ "size": 0, "aggs" : { "all_articleId" : { "terms" : { "field" : "articleId" } } }} 得到的结果:...

2020-04-11 20:05:05 3262 1

原创 hive--truncate删除表中的数据

delect:用于删除特定行条件,你可以从给定表中删除所有的行TRUNCATE:truncate用于删除所有的行,这个行为在hive元存储删除数据是不可逆的DROP:删除hive中的表truncate 不能删除外部表!因为外部表里的数据并不是存放在Hive中的warehouse中truncate table table_name;例子:t

2016-10-11 14:56:37 2977

转载 MYSQL解决select ... into outfile '..' mysql写文件权限问题

select FQQ,FScoreCount from Tbl_User into outfile "/tmp/terminatedtest.txt" fields terminated by ",";select * from test into outfile '/home/user/test.txt'在linux(centos)下 ,启动了mysql 并给用户文件读写

2016-08-17 15:51:36 7368

原创 hadoop写文件过程

写文件注:为编辑方便以下NameNode和SecondaryNode用NN和SN表示客户端上传文件是,NN首先往edits.log文件中记录源数据操作日志。客户端开始上传文件完成后返回成功信息给NN,NN就在内存中写入这次上传操作的新产生的元数据信息。每当edits.log写满时,需要将这一段时间的心的元数据刷到fsimage文件中。 SN的作用:合并edits.log和fsimage

2016-06-24 13:14:03 300

原创 kafka以及storm-kafka整合

kafka笔记1/kafka是一个分布式的消息缓存系统2/kafka集群中的服务器都叫做broker3/kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4/kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5/每

2016-05-14 14:07:21 1934

原创 c:forEach varStatus="status"中 varStatus的属性简介

varStatus="status">中varStatus的属性简介varStatus是jstl循环标签的一个属性,varStatus属性。就拿varStatus=“status”来说,事实上定义了一个status名的对象作为varStatus的绑定值。该绑定值也就是status封装了当前遍历的状态,比如,可以从该对象上查看是遍历到了第几个元素:${status.count}

2016-05-09 22:01:07 548

原创 storm安装(三台)

1、安装一个zookeeper集群2、上传storm的安装包,解压3、修改配置文件storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "weekend05" - "weekend06" - "weekend07"#nimbus所在的主机名nimbus

2016-04-30 14:33:36 346

原创 hive启动失败的小问题总结以及hive

Hive installation issues: Hive metastore database is not initialized

2016-04-29 20:18:22 2223

原创 hbase shell示例

进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列族info中添

2016-04-29 15:07:13 331

原创 hbase表结构

2016-04-29 15:04:19 488

原创 hbase配置(基于HA)

基于HA的hbase配置,普通分布式可以自行修改配置文件

2016-04-29 14:53:45 431

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除