大数据开发
文章平均质量分 73
包括hadoop、kafka、flink、es、zookeeper、计算机网络等
MusicDancing
这个作者很懒,什么都没留下…
展开
-
消息队列Message Queue
1. 为什么要用消息队列?消息队列MQ是一个中间件:负责把要传输的数据放在队列中。1.1 解耦系统A可以产生一个userId系统A可以产生一个UserI系统B和系统C都需要这个userId去做相关的操作系统A给系统B和系统C传入userId这个值写成伪代码可能是这样的:publicclassSystemA{//系统B和系统C的依赖SystemBsystemB=newSystemB();SystemCsystemC=new...原创 2022-05-18 10:18:15 · 350 阅读 · 0 评论 -
Kafka数据问题
1. Kafka会丢数据吗?以下场景会丢消息1.1 用Producer发消息至Broker时候选者:如果你不想丢消息,那在发送消息的时候,需要选择带有 callBack的api进行发送候选者:其实就意味着,如果你发送成功了,会回调告诉你已经发送成功了。如果失败了,那收到回调之后自己在业务上做重试就好了。候选者:等到把消息发送到Broker以后,也有可能丢消息候选者:一般我们的线上环境都是集群环境下嘛,但可能你发送的消息后broker就挂了,这时挂掉的broker还没来得及把数据同步给原创 2022-05-16 21:09:18 · 172 阅读 · 0 评论 -
Kafka简介
百度首页「来源: |全栈开发者社区 ID:quanzhankaifazhe」认识 kafkakafka简介Kafka 是一个分布式流媒体平台,kafka官网:http://kafka.apache.org/1)流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。2)Kafka通常用于两大类应用:构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建.原创 2022-05-17 12:06:28 · 1172 阅读 · 0 评论 -
Kafka 基础知识
1. 什么是Kafka?写过的消息队列入门文章也提到了,要做一个消息队列可能要考虑到以下的问题:使用消息队列不可能是单机的(必然是分布式or集群) 数据写到消息队列,可能会存在数据丢失问题,数据在消息队列需要持久化(磁盘?数据库?Redis?分布式文件系统?) 想要保证消息(数据)是有序的,怎么做? 为什么在消息队列中重复消费了数据下面我以Kafka为例对这些问题进行简单的解答,进而入门Kafka。1.1 Kafka入门众所周知,Kafka是一个消息队列,把消息放到队列里边的叫生产者原创 2022-05-17 16:36:45 · 144 阅读 · 0 评论 -
初识Zookeeper
1. 什么是ZooKeeper?Kafka使用ZooKeeper管理自己的元数据配置。官网解释:ZooKeeper: A Distributed Coordination Service for Distributed Applications我简单概括一下:ZooKeeper主要服务于分布式系统,可以用ZooKeeper来做:统一配置管理、统一命名服务、分布式锁、集群管理。 使用分布式系统就无法避免对节点管理的问题(需要实时感知节点的状态、对节点进行统一管理等等),而由于这些问.原创 2022-05-13 15:30:38 · 117 阅读 · 0 评论 -
TCP简介
1. TCP 与UDP 区别1. TCP是面向连接的(通过三次握手),UDP是无连接的。2. TCP保证数据按序发送,按序到达,可超时重传来保证可靠性; 而UDP不能保证按序到达,甚至有时候不能到达,只是尽力而为。3. TCP是一对一连接的,而UDP支持一对一,多对多,一对多的通信。4. TCP面向的是字节流服务,UDP面向报文服务。5. TCP有流量控制和拥塞机制,而UDP则没有,网络拥堵不会影响发送端的发送速率。2. OSI与TCP/IP区别OSI开放式系统互联...原创 2021-08-01 10:36:20 · 240 阅读 · 0 评论 -
初始Flink
rm集群给下线啦,所以我们都得把Storm的任务都改成Flink。于是最近入门了一把Flink,现在来分享一下Flink入门的相关知识。(写上面这一段话的时候,到发文章这个时候已经过了一个季度了,不好意思,我这篇文章拖了一个季度)不得不说,Flink这两年是真的火 这篇文章主要讲讲Flink入门时一些可能看不太懂的点又或是看官方介绍看不太懂的点(API我就不细说了,多用用应该都能看懂)。什么是Flink?在Flink的官网上,可以把官方文档语言设置为中文,于是我们可以看到官方是这样介绍的原创 2022-05-30 10:02:16 · 23 阅读 · 0 评论 -
启动一个MR任务
1.#!/bin/bashINPUT_DIR="/app/lbs/zz/route/*"OUTPUT_DIR="/app/lbs/zz/result"HADOOP_HOME="/home/user/zz/hadoop-navi/hadoop/bin"${HADOOP_HOME}/hadoop fs -rmr ${OUTPUT_DIR}${HADOOP_HOME}/hadoop bistreaming \ -input ${INPUT_DIR} \ -output ${OUT原创 2021-12-03 21:21:09 · 294 阅读 · 0 评论 -
HDFS文件查改增删及上传下载
1. 把linux中的文件上传到HDFS个人目录中# 前面为本地文件路径,后面为HDFS中文件路径hadoop fs -put /data/zz/aa.txt /user/zz/或hdfs dfs -put /data/zz/aa.txt /user/zz/ # 上传文件夹hadoop fs -put /data/zz/test /user/zz/2. 把hdfs目录中文件夹拉到本地hadoop fs -get /user/zz/test /data/zz/...原创 2020-12-18 16:27:08 · 1780 阅读 · 1 评论 -
yarn任务管理
1.查看yarn任务日志yarn logs -applicationId application_1517538889175_25502.杀死yarn任务yarn application -kill application_1585295380521_4957539原创 2020-08-12 23:51:00 · 436 阅读 · 0 评论