1 背景
某客户现场,每天都会批量生成大量 CSV 文件存放到 FTP 系统,这些 CSV 文件需要导入到大数据平台 HIVE 数仓中做后续离线分析,且 HIVE 数仓中的离线分析作业目前是使用 JENKINS 来调度的。
由于这些 CSV 文件是每天都会生成,且文件数比较多数据量也比较大,初步计划使用 DATAX 来导入 FTP 上的 CSV 文件。
但在调度系统 JENKINS 中,如何检测 ftp 上的 csv 文件是否 ready,并及时触发 DATAX 导入作业,成为了一个问题。
为探索和验证 JENKINS 中 FTP 文件的检测和触发机制,笔者搭建了 FTP 服务器。
在此通过系列文章,跟大家分享一个开源的 FTP 服务器 vsftpd, 介绍下其安装配置和使用,然后介绍下 FTP 的 ACTIVE 与 PASSIVE 模式,最后介绍下 CurlFtpFS.
本片文章是系列文章第一篇,介绍下开源的 FTP 服务器 vsftpd,及其安装配置和使用。
2 开源 FTP 服务器 vsftpd 介绍
vsftpd 是一款 UNIX/LINUX 上的 FTP 服务器软件,号称是“ Probably the most secure and fastest FTP server for UNIX-like systems”,其具有以下特点:
安全
快速
稳定
开源 (基于 GPLv2 协议开源)
更多关于 vsftpd 的介绍,可以参考官网:
https://security.appspot.com/vsftpd.html
![bc183b998b03be203ef43838dbd00626.png](https://img-blog.csdnimg.cn/img_convert/bc183b998b03be203ef43838dbd00626.png)
3 开源 FTP 服务器 vsftpd 的安装配置和管理
绝大多数 linux 发行版服务器的包管理工具中都自带了 vsftpd 的安装包,直接使用包管理工具的安装命令进行安装即可;
使用包管理工具安装完毕 vsftpd 后,即可使用系统服务 systemd 对 vsftpd 进行启停等常规运维管理;
使用包管理工具安装完毕 vsftpd 后,需要针对自己的环境对配置文件进行修改,配置文件地址一般为 /etc/vsftpd/vsftpd.conf