自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 ERROR YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(1,0,Map(),Set()) to AM wa

1、猜测是数据量有增加,建议调大日志中出现的参数spark.rpc.askTimeout。2、同时建议优化下列参数。

2024-03-13 17:58:57 271

原创 postgresql插入数据时,主键存在就将数据更新,没有就新增一条记录

PG数据库写入一张主键表,主键存在就将数据更新,没有就新增一条记录。

2023-07-25 15:05:25 1439

原创 Hive表示出两个日期之间的所有日期

【代码】Hive表示出两个日期之间的所有日期。

2023-03-29 19:16:43 271

原创 linux上如何用yum安装openjdk1.8,踩坑汇总

linux上如何用yum安装openjdk1.8

2022-06-01 00:30:52 3519

原创 快速使用腾讯云服务器安装单机版kafka,全过程跑通

快速安装单机版kafka,全过程跑通

2022-06-01 00:18:06 586

原创 linux安装jdk后jps: command not found怎么办

jps: command not found

2022-05-31 23:41:36 677

原创 hive建表导入数据,用hive查询表无数据,而用persto查询有数据

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入mr和tez跑出来的数据不一样,mr丢数据?欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑

2021-04-28 21:35:53 1698 1

原创 shell里拆出csv文件的第2/3列

s.csv文件格式如下3,in,5,1214,12,123,12315,21,in,10需要通过shell命令,拆出第2/3列如下in,512,12321,in一 cutcut -d , -f 2,3 s.csv二 awkawk -F , '{print $2,$3}' s.csv

2021-04-20 21:31:36 1018

原创 记一次简单的sql优化

需求:统计报警点位所属设备的设备报警总数top100的设备的报警总数需求分许:需要先找出所有设备的报警次数,按照报警次数进行排序,取前100,然后再对前100的设备的报警次数进行统计SQL思路将报警次数TOP100的设备找出来,再对整个数据进行一个inner join,再叠加一个count。可以计算出select count(1)from (select substring_index(alarm_description," ",1) siad,id,alarm_descripti.

2021-02-02 16:43:18 105

原创 SparkStreaming+Kafka如何限速的问题

SparkStreaming消费Kafka数据的时候,当有大量初始化数据时会拖累整个streaming程序的运行,问有什么办法?总体来说这个问题大概有两种解决思路:1.在Spark端设置限速;2.在Kafka端设置限速。1.Spark端设置限速Spark端限速的方法,主要的思路是设置不同的参数,比如在Direct模式下设置spark.streaming.kafka.maxRatePerPartition,receiver模式下设置spark.streaming.receiver.maxRate

2021-01-26 14:53:59 447

原创 Kafka Consumer多线程消费

01 概述关于Kafka Java Consumer多线程消费的实现,多个线程可能拿到相同分区的数据,而消费的顺序会破坏消息本身在分区中的顺序,因而扰乱位移的提交。使用KafkaConsumer的pause和resume方法来防止这种情形的发生。另外,本次我会编写一个测试类用于验证消费相同数量消息时,单线程消费速度要远逊于多线程消费。这一次,我编写了5个java文件,它们分别是:***OrdinaryConsumer.java:***普通的单线程Consumer,用于后面进行性能测试对比用。***

2021-01-22 14:09:31 1435 1

原创 kakfa获取到当前最新消息的offset

业务场景IOT领域,假设有用户访问页面,只需要当前时刻的数据,不关心之前设备的数据。所以通过获取当前kafka的broker里的最新offset,然后consumer消费最新的offset来获取最新的时刻数据。一 simlpeAPI实现public class GetOffsetShellWrap { private static Logger log = LoggerFactory.getLogger(GetOffsetShellWrap.class); private Strin

2020-08-18 15:24:00 465

原创 kafka自定义分区,数据流向指定分区,消费者组的消费者消费指定分区(java)

业务场景参考在IOT领域,传感器设备的数据向服务器发送数据,预想一个类型的数据放一个topic里,但是根据实际情况。kaka的topic数越多,吞吐量性能下降厉害。所以想象将分区做个自定义,然后消费者组的消费者消费指定分区,达到这一目的。一 自定义kafka分区public class SimplePartitioner implements Partitioner { private final AtomicInteger atomicInteger = new AtomicIntege

2020-08-18 14:58:01 1660 1

原创 cdh安装的kafka在linux里面创建topic主题报错:Replication factor: 1 larger than available brokers: 0

遇到问题用CDH搭建的kafka集群,想通过linux的kafka直接创建topic主题来测试一下kafkakafka-topics --zookeeper localhost:2181 --create -replication-factor 1 --partitions 3 --topic test直接报错20/07/17 14:30:54 INFO zookeeper.ZooKeeper: Client environment:user.dir=/opt/cloudera/parcels/K

2020-07-17 14:46:10 611

原创 手把手教你!0基础小白也可以使用谷歌服务器搭建自己的博客网站

准备工作visa卡(用于谷歌的认证)fan(翻)qiang(墙)工具(用于登陆谷歌)一 申请及注册谷歌云1.登录Google Cloud官网并进行账户注册:https://cloud.google.com/ ,我们在官网首页点击免费试用进行注册:2.我们进行国家和地区资料填写,我们在右侧栏可以看到12个月有效期的300刀赠额说明。国家地区选择真实所在地,这里我选择中国,勾选同意条款,点击同意并继续:3.我们接下来进行个人资料和信用卡资料的填写,个人资料和信用卡资料如实填写就好了。4.

2020-07-08 11:20:22 7960

原创 kafka0.11的生产者幂等性设计与事务

0.11版本在 2017 年 6 月,社区发布了 0.11.0.0 版本,引入了两个重量级的功能变更:一个是提供幂等性 Producer API 以及事务(Transaction) API;另一个是对 Kafka 消息格式做了重构。前一个好像更加吸引眼球一些,毕竟 Producer 实现幂等性以及支持事务都是 Kafka 实现流处理结果正确性的基石。没有它们,Kafka Streams 在做流处理时无法向批处理那样保证结果的正确性。当然同样是由于刚推出,此时的事务 API 有一些 Bug,不算十分稳定。另

2020-07-07 16:11:23 431

原创 亲手搭建!从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)(第五步:配置HDFS的HA)

5.1,环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。5.2,配置Namenode 的HA5.2.1,进入HDFS界面,点击“启用High Availability”5.2.2,输入NameService名称,这里设置为:nameservice1,点击继续按钮。5.2.3,设置另一个NameNode节点,这里设置为:cdh-node3.grc。设置JournalNode节点,这里设置为:cdh-node[2-6].grc,一共5个节点。注意:Nourna

2020-07-07 13:54:37 190

原创 亲手搭建!从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)(第四步: spark2.x安装)

说明:【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行四 spark安装升级2.x4.1 spark1.6自带的安装报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user/root":hdfs:supergroup:drwxr-xr-x切换到hdfs的超级管理员启动su - hdfssudo -u

2020-07-03 14:23:21 168

原创 亲手搭建!从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)(第三步: CDH安装)

说明:【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行三 CDH安装3.1 打开web打开7180端口,账号密码都是admin3.2 安装警告Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10。当前设置为 30。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf,以在重启后保存该设置。您可以继续进行安

2020-07-03 14:13:30 221

原创 亲手搭建!从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)(第二步: ClouderaManager安装)

二、 ClouderaManager安装2.1 安装Cloudera Manager Server、Agent【all】mkdir /opt/cloudera-manager【1】tar xvzf cloudera-manager*.tar.gz -C /opt/cloudera-manager2.2 创建用户cloudera-scm【all】useradd --system --no-create-home --shell=/bin/false --comment "Cloudera SCM

2020-07-03 13:51:14 274

原创 亲手搭建!从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)(第一步:环境准备)

说明:【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行一、环境准备1.1 网络配置配置网络信息【all】vi /etc/sysconfig/network--每个文件都配置不同,要修改datalinux1、datalinux2、datalinux3NETWORKING=yesHOSTNAME=datalinux2GATEWAY=192.168.1.11.2 配置hosts映射【all】vi /etc/hosts--每个hosts都配置相同192.168

2020-07-03 11:21:26 219

原创 Cloudera怎么配置Namenode的HA(高可用)

1,环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2,配置Namenode 的HA2.1,进入HDFS界面,点击“启用High Availability”2.2,输入NameService名称,这里设置为:nameservice1,点击继续按钮。2.3,设置另一个NameNode节点,这里设置为:cdh-node3.grc。设置JournalNode节点,这里设置为:cdh-node[2-6].grc,一共5个节点。注意:NournalNode必须设置&

2020-06-10 15:44:56 803

原创 centos7安装mysql报“没有可用软件包 mysql-server”怎么办?

第一步:安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步:下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 第三步:安装mysql-community-release-el7-5.noarch.rpm包[root@master ~]# rpm -ivh mysql-community-r.

2020-06-04 14:16:28 12359 11

转载 一文读透Spark中foreachRDD、foreachPartition和foreach

foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同,foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。在Spark 官网中,foreachRDD被划分到Output Operations on DStreams中,所有我们首先要明确的是,它是一个输出操作的算子,然后再来看官网对它的含义解释

2020-05-20 13:39:09 441

原创 spark调优核心--spark shuffle调优全剖析(收藏)

Shuffle调优一:调节map端缓冲区大小在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况,使得性能非常低下,通过调节map端缓冲的大小,可以避免频繁的磁盘IO操作,进而提升Spark任务的整体性能。map端缓冲的默认配置是32KB,如果每个task处理640KB的数据,那么会发生640/32 = 20次溢写,如果每个task处理64000KB的数据,机会发生64000/32=20

2020-05-19 10:12:55 133

原创 spark导入csv文件,其中string数据类型为'NULL'字符串,解决方案!

创建导入数据的外部表create EXTERNAL table cyf_ce( attr1 STRING , attr2 STRING , attr3 STRING , attr4 STRING , attr5 STRING , channel_account STRING , channel_type STRING , device STRING , e...

2020-04-25 17:21:51 1250

原创 超详细!全注释!java代码对hbase进行建表(create),插入数据(put),查询数据(get)以及扫描(scan)

一.导入核心jar包hbase/lib/下的115个jar包二.编写代码package com.shsxt.ly;import java.io.IOException;import java.io.InterruptedIOException;import java.util.ArrayList;import java.util.Iterator;import java.uti...

2019-11-28 21:20:06 681

原创 HBase的数据模型的各个名词解读!

HBase的数据模型RowKey是数据的唯一标识默认由64k的数据组成,但是实际使用中按照用户的需求自由定义分配空间的时候使用多少分配多少,但是rowkey设计的时候够用就行当我们插入数据的时候,HBase会按照RowKey的字典序给我们排序HBase中的数据默认按照rowkey有序注意字典的排序规则TimeStamp数据的版本控制器它是基于HDFS储存的一...

2019-11-27 10:16:36 244

转载 java IO流的概念理解

java流类结构图一.流的概念:流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象。它的特性是进行数据传输;例如从水源地长江把水导入自来水厂,然后又从自来水厂把水送到各家各户。从长江到自来水厂之间的管道我们可以称之为输入流,从自来水厂把水送到各家各户的管道我们称之为输出流,我们大概可以这么理解。二.流的继承体系在java中,为了对不同来源和性质的流对象调用统一的方法,ja...

2019-07-14 17:25:45 193

原创 快速认识java的block块的使用

/* * 块block: {}->作用域 * {}定义在方法中->局部代码块|普通语句块 执行时机:调用方法 * {}定义在类中方法外->构造块 执行时机:new * static{}定义在类中方法外->静态块 执行时机:在类第一次加载以后执行一次 * 同步块 * * 构造块先于构造器的代码执行,如果存在多个构造块,从上到下...

2019-07-05 21:42:11 639

转载 java中3种循环方法--(for while do..while)实例全解

java循环结构顺序结构的程序语句只能 被执行一次。如果你要同样的操作执行多次,就需要使用循环结构。java中有三种主要的循环结构:while 循环do…while 循环for 循环1.while循环while是最基本的循环,它的结构为://while(布尔(true/false)表达式){//循环内容 //只要布尔表达式为 true 循环体就会一直执行下去。//来看看...

2019-07-01 21:01:50 424

原创 Java的数据类型和变量

一 、变量1.计算机的内存类似于人的大脑,计算机使用内存来记忆大量运算时要使用数据。内存是一个物理设备,,数据被存储在内存中,目的是便于在需要时取出来使用,或者如果这个数据被改变了,内存中存储的值也会随之相应的更新,以便下次使用新的数据。变量比成一个房间房间名称 变量名房间类型 变量类型入住客人 变量的值通过变量名可以简单快速的找到存储数据。将指定给变量,就是将数据存储到以别名为变...

2019-06-30 21:12:59 90

Dataphin·服务提供的api服务的sdk代码资源

Dataphin·服务SDK是根据您自定义的所有API接口,自动生成的Java调用代码,让您无需复杂编程即可访问Dataphin·服务。

2022-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除