大数据集群数据传输

简单的服务器间的通信示例

netcat,简写为 nc,是 unix 系统下一个强大的命令行网络通信工具,用于在两台主机之间建立 TCP 或者 UDP 连接,并提供丰富的命令进行数据通信。nc 在网络参考模型属于应用层。使用 nc 可以做很多事情:建立连接,发送数据包,监听端口,扫描端口,处理 ip4 和 ip6,和 telnet 不同,nc 会区分错误输出和标准输出,telnet 则都是标准输出。

启动服务端 nc -l 端口号

nc -l 6666

启动客户端

nc 服务端IP 6666

Kafka 类似,但更加强大,下面是一个Kafka 生产者生产数据到topic ,消费者(flink)在topic中消费到数据,将数据落地为文件的案例:

第一步:创建一个topic 

1、topic名称带有明显来源和业务的单词,例如:t_jif_tgcdr

2、topic备份数量小于等于kafka节点数;

3、topic分区数应是备份数的倍数关系;

4、检查topic是否已经存在,如果存在,需另外起名

kafka-topics.sh  \
--bootstrap-server xxx.xxx.xxx.xxx:xxxx \
--create  \
--replication-factor 3 \
--partitions 3 \
--topic  kfk_big_data_study
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

也许会出现这个警告,就是建议topic 名称

 

查看kafka是否创建成功
kafka-topics.sh --list --bootstrap-server xxx.xxx.xxx.xxx:xxxx |grep study

二、对接表字段

1、对端一定要提供数据的结构;

2、对端要提供数据样例;

3、通过样例判断是txt、json、还是混合数据格式

4、要确定数据是实时、增量、全量问题

5、在数据云调度上创建物理模型并落地hive

6、如需同步行云,需创建物理模型落地行云

这里面我们只介绍自己生产数据, 数据样例:

结构如:

name|age|kungfu

例如

欧阳锋|42|蛤蟆功

三、创建生产者

kafka-console-producer.sh --broker-list xxx.xxx.xxx.xxx:xxxx --topic kfk_big_data_study

四、测试消费

kafka-console-consumer.sh --bootstrap-server xxx.xxx.xxx.xxx:xxxx  --from-beginning --topic kfk_big_data_study

五、创建Flink来消费Topic中的数据

https://nightlies.apache.org/flink/flink-docs-release-1.16/zh/docs/connectors/table/kafka/

set setexecution.checkpointing.interval=30sec;
set parallelism.default=9;
set execution.target=yarn-per-job;
set yarn.application.name=yarn_kfk_big_data_study;
set yarn.application.queue=root|default|hadoop|user-defined;

--创建Kafka表
drop table if EXISTS kafka_big_data_study;
CREATE TABLE IF NOT EXISTS kafka_big_data_study(
name string,
age string,
kungfu string
) WITH (
    'connector' = 'kafka',
    'topic' = 'kfk_big_data_study',
    'properties.group.id'='group_01',
    'properties.bootstrap.servers' = 'xxx.xxx.xxx.xxx:xxxx',
    'scan.startup.mode' = 'earliest-offset',
    'format' = 'csv',
 'csv.ignore-parse-errors' = 'true',
 'csv.allow-comments' = 'true'
);

--创建Sink表
drop table IF EXISTS t_big_data_study;
CREATE TABLE t_big_data_study(
name string,
age string,
kungfu string
) WITH (
    'connector' = 'filesystem',
    'path' = 'hdfs://beh001/gsdx_data/spooldirtohive/study/t_big_data_study/',
    'format' = 'csv',
    'csv.field-delimiter' = '|'
);

--从kafka表插入数据到Sink表
insert into t_big_data_study
select 
name ,
age ,
kungfu
from kafka_big_data_study;
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

将以上脚本保存在一个自定义的sql文件中,然后使用下面的命令调用
 

sql-client.sh -f study.sql 
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

看到这个情况说明flink job已经启动;

接下来,生产一条消息看看是否会落地到hdfs目录

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当您想要搭建一个大数据集群时,购买一台适合的台式机是个不错的选择。以下是一些建议来帮助您购买合适的硬件: 1. 处理器(CPU):选择多核心的高性能处理器,例如Intel Core i7或更高级别的处理器。这将有助于处理大量数据并进行并行计算。 2. 内存(RAM):对于大数据处理,建议选择至少16GB的RAM。如果您的数据集足够大,可以考虑32GB或更多RAM。 3. 存储设备:为了存储和访问大量数据,您可以选择一个大容量的硬盘驱动器(HDD)或者更快的固态驱动器(SSD)。如果您的预算允许,建议使用SSD来提高数据读写速度。 4. 显卡(GPU):如果您计划进行深度学习或其他需要GPU加速的任务,那么选择一款强大的独立显卡可能会有帮助。NVIDIA的GeForce系列或AMD的Radeon系列显卡都是不错的选择。 5. 网络连接:确保您的台式机具备高速网络连接,以便在集群中传输和处理大量数据。 6. 散热系统:由于大数据处理可能会产生较高的温度,所以选择一个高效的散热系统来保持您的台式机运行稳定。 此外,确保您的操作系统和软件也能够支持大数据处理任务。您可能需要安装Hadoop、Spark等相关软件来搭建和管理大数据集群。 最后,如果您对硬件配置和集群搭建不太熟悉,建议咨询专业人士或寻求技术支持,以确保您能够成功地搭建和管理大数据集群。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值