meavoChen-CSDN博客

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入mr和tez跑出来的数据不一样，mr丢数据？欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑

2021-04-28 21:35:53 1806 1

原创 shell里拆出csv文件的第2/3列

s.csv文件格式如下3,in,5,1214,12,123,12315,21,in,10需要通过shell命令,拆出第2/3列如下in,512,12321,in一 cutcut -d , -f 2,3 s.csv二 awkawk -F , '{print $2,$3}' s.csv

2021-04-20 21:31:36 1154

原创记一次简单的sql优化

需求：统计报警点位所属设备的设备报警总数top100的设备的报警总数需求分许：需要先找出所有设备的报警次数，按照报警次数进行排序，取前100，然后再对前100的设备的报警次数进行统计SQL思路将报警次数TOP100的设备找出来，再对整个数据进行一个inner join，再叠加一个count。可以计算出select count(1)from (select substring_index(alarm_description," ",1) siad,id,alarm_descripti.

2021-02-02 16:43:18 133

原创 SparkStreaming+Kafka如何限速的问题

SparkStreaming消费Kafka数据的时候，当有大量初始化数据时会拖累整个streaming程序的运行，问有什么办法？总体来说这个问题大概有两种解决思路：1.在Spark端设置限速；2.在Kafka端设置限速。1.Spark端设置限速Spark端限速的方法，主要的思路是设置不同的参数，比如在Direct模式下设置spark.streaming.kafka.maxRatePerPartition，receiver模式下设置spark.streaming.receiver.maxRate

2021-01-26 14:53:59 507

原创 Kafka Consumer多线程消费

01 概述关于Kafka Java Consumer多线程消费的实现，多个线程可能拿到相同分区的数据，而消费的顺序会破坏消息本身在分区中的顺序，因而扰乱位移的提交。使用KafkaConsumer的pause和resume方法来防止这种情形的发生。另外，本次我会编写一个测试类用于验证消费相同数量消息时，单线程消费速度要远逊于多线程消费。这一次，我编写了5个java文件，它们分别是：***OrdinaryConsumer.java：***普通的单线程Consumer，用于后面进行性能测试对比用。***

2021-01-22 14:09:31 1519 1

原创 kakfa获取到当前最新消息的offset

业务场景IOT领域，假设有用户访问页面，只需要当前时刻的数据，不关心之前设备的数据。所以通过获取当前kafka的broker里的最新offset，然后consumer消费最新的offset来获取最新的时刻数据。一 simlpeAPI实现public class GetOffsetShellWrap { private static Logger log = LoggerFactory.getLogger(GetOffsetShellWrap.class); private Strin

2020-08-18 15:24:00 541

原创 kafka自定义分区，数据流向指定分区，消费者组的消费者消费指定分区（java）

业务场景参考在IOT领域，传感器设备的数据向服务器发送数据，预想一个类型的数据放一个topic里，但是根据实际情况。kaka的topic数越多，吞吐量性能下降厉害。所以想象将分区做个自定义，然后消费者组的消费者消费指定分区，达到这一目的。一自定义kafka分区public class SimplePartitioner implements Partitioner { private final AtomicInteger atomicInteger = new AtomicIntege

2020-08-18 14:58:01 1743 1

原创 cdh安装的kafka在linux里面创建topic主题报错:Replication factor: 1 larger than available brokers: 0

遇到问题用CDH搭建的kafka集群，想通过linux的kafka直接创建topic主题来测试一下kafkakafka-topics --zookeeper localhost:2181 --create -replication-factor 1 --partitions 3 --topic test直接报错20/07/17 14:30:54 INFO zookeeper.ZooKeeper: Client environment:user.dir=/opt/cloudera/parcels/K

2020-07-17 14:46:10 659

原创手把手教你！0基础小白也可以使用谷歌服务器搭建自己的博客网站

准备工作visa卡（用于谷歌的认证）fan（翻）qiang（墙）工具（用于登陆谷歌）一申请及注册谷歌云1.登录Google Cloud官网并进行账户注册：https://cloud.google.com/ ,我们在官网首页点击免费试用进行注册：2.我们进行国家和地区资料填写，我们在右侧栏可以看到12个月有效期的300刀赠额说明。国家地区选择真实所在地，这里我选择中国，勾选同意条款，点击同意并继续：3.我们接下来进行个人资料和信用卡资料的填写，个人资料和信用卡资料如实填写就好了。4.

2020-07-08 11:20:22 8713

原创 kafka0.11的生产者幂等性设计与事务

0.11版本在 2017 年 6 月，社区发布了 0.11.0.0 版本，引入了两个重量级的功能变更：一个是提供幂等性 Producer API 以及事务（Transaction） API；另一个是对 Kafka 消息格式做了重构。前一个好像更加吸引眼球一些，毕竟 Producer 实现幂等性以及支持事务都是 Kafka 实现流处理结果正确性的基石。没有它们，Kafka Streams 在做流处理时无法向批处理那样保证结果的正确性。当然同样是由于刚推出，此时的事务 API 有一些 Bug，不算十分稳定。另

2020-07-07 16:11:23 470

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第五步：配置HDFS的HA）

5.1，环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。5.2，配置Namenode 的HA5.2.1，进入HDFS界面，点击“启用High Availability”5.2.2，输入NameService名称，这里设置为：nameservice1，点击继续按钮。5.2.3，设置另一个NameNode节点，这里设置为：cdh-node3.grc。设置JournalNode节点，这里设置为：cdh-node[2-6].grc，一共5个节点。注意：Nourna

2020-07-07 13:54:37 218

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第四步： spark2.x安装）

说明：【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行四 spark安装升级2.x4.1 spark1.6自带的安装报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user/root":hdfs:supergroup:drwxr-xr-x切换到hdfs的超级管理员启动su - hdfssudo -u

2020-07-03 14:23:21 192

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第三步： CDH安装）

说明：【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行三 CDH安装3.1 打开web打开7180端口，账号密码都是admin3.2 安装警告Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10。当前设置为 30。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf，以在重启后保存该设置。您可以继续进行安

2020-07-03 14:13:30 246

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第二步： ClouderaManager安装）

二、 ClouderaManager安装2.1 安装Cloudera Manager Server、Agent【all】mkdir /opt/cloudera-manager【1】tar xvzf cloudera-manager*.tar.gz -C /opt/cloudera-manager2.2 创建用户cloudera-scm【all】useradd --system --no-create-home --shell=/bin/false --comment "Cloudera SCM

2020-07-03 13:51:14 304

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第一步：环境准备）

说明：【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行一、环境准备1.1 网络配置配置网络信息【all】vi /etc/sysconfig/network--每个文件都配置不同，要修改datalinux1、datalinux2、datalinux3NETWORKING=yesHOSTNAME=datalinux2GATEWAY=192.168.1.11.2 配置hosts映射【all】vi /etc/hosts--每个hosts都配置相同192.168

2020-07-03 11:21:26 247

原创 Cloudera怎么配置Namenode的HA（高可用）

1，环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2，配置Namenode 的HA2.1，进入HDFS界面，点击“启用High Availability”2.2，输入NameService名称，这里设置为：nameservice1，点击继续按钮。2.3，设置另一个NameNode节点，这里设置为：cdh-node3.grc。设置JournalNode节点，这里设置为：cdh-node[2-6].grc，一共5个节点。注意：NournalNode必须设置&

2020-06-10 15:44:56 891

原创 centos7安装mysql报“没有可用软件包 mysql-server”怎么办？

第一步：安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步：下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 第三步：安装mysql-community-release-el7-5.noarch.rpm包[root@master ~]# rpm -ivh mysql-community-r.

2020-06-04 14:16:28 13478 11

转载一文读透Spark中foreachRDD、foreachPartition和foreach

foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同，foreachRDD作用于DStream中每一个时间间隔的RDD，foreachPartition作用于每一个时间间隔的RDD中的每一个partition，foreach作用于每一个时间间隔的RDD中的每一个元素。在Spark 官网中，foreachRDD被划分到Output Operations on DStreams中，所有我们首先要明确的是，它是一个输出操作的算子，然后再来看官网对它的含义解释

2020-05-20 13:39:09 551

原创 spark调优核心--spark shuffle调优全剖析(收藏)

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。map端缓冲的默认配置是32KB，如果每个task处理640KB的数据，那么会发生640/32 = 20次溢写，如果每个task处理64000KB的数据，机会发生64000/32=20

2020-05-19 10:12:55 164

looo000ngname的博客

原创 ERROR YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(1,0,Map(),Set()) to AM wa

原创 postgresql插入数据时，主键存在就将数据更新，没有就新增一条记录

原创 Hive表示出两个日期之间的所有日期

原创 linux上如何用yum安装openjdk1.8，踩坑汇总

原创快速使用腾讯云服务器安装单机版kafka，全过程跑通

原创 linux安装jdk后jps: command not found怎么办

原创 hive建表导入数据，用hive查询表无数据，而用persto查询有数据

原创 shell里拆出csv文件的第2/3列

原创记一次简单的sql优化

原创 SparkStreaming+Kafka如何限速的问题

原创 Kafka Consumer多线程消费

原创 kakfa获取到当前最新消息的offset

原创 kafka自定义分区，数据流向指定分区，消费者组的消费者消费指定分区（java）

原创 cdh安装的kafka在linux里面创建topic主题报错:Replication factor: 1 larger than available brokers: 0

原创手把手教你！0基础小白也可以使用谷歌服务器搭建自己的博客网站

原创 kafka0.11的生产者幂等性设计与事务

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第五步：配置HDFS的HA）

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第四步： spark2.x安装）

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第三步： CDH安装）

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第二步： ClouderaManager安装）

原创亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第一步：环境准备）

原创 Cloudera怎么配置Namenode的HA（高可用）

原创 centos7安装mysql报“没有可用软件包 mysql-server”怎么办？

转载一文读透Spark中foreachRDD、foreachPartition和foreach

原创 spark调优核心--spark shuffle调优全剖析(收藏)

原创 spark导入csv文件，其中string数据类型为'NULL'字符串，解决方案！

原创超详细！全注释！java代码对hbase进行建表（create），插入数据（put），查询数据（get）以及扫描（scan）

原创 HBase的数据模型的各个名词解读!

转载 java IO流的概念理解

原创快速认识java的block块的使用

转载 java中3种循环方法--(for while do..while)实例全解

原创 Java的数据类型和变量

Dataphin·服务提供的api服务的sdk代码资源

空空如也