linux如何统一管理爬虫,爬虫说明文档

环境要求

jdk版本:jdk 1.8

redis版本:不限

系统:linux /windows

项目概述

该爬虫程序手动上传需要爬取的csv文件,以instid + 任意分隔符 + 网页地址组成,分隔符设置详见后续配置文件分析。

93ab4cb76999

爬虫csv文件.png

文件上传完成即开始爬取,这里可以在多台局域网中部署爬虫,增加爬取速度,但只有一台需要开启主程序,详见后续配置文件分析。爬取结果会定时生成固定格式的爬取结果文件。

93ab4cb76999

爬取结果.png

文件夹说明

93ab4cb76999

文件夹.png

bin文件夹是启动程序

config是配置文件

docs是说明文档(包括本文)

files生成的爬虫文件

lib是爬虫的jar包(不用管)

logs是爬虫日志

配置文件说明

项目启动前需要设置配置文件

93ab4cb76999

配置文件.png

application.yml放的是主要配置,application.yml.bac是配置文件的备份。

# 爬取线程数

crawlerThreadNum: 10

# 爬虫结果整理时间

cronExpression: "0 * * * * ?"

# 是否是主程序YES or NO(单机版默认为是,分布式爬取的情况下一台机器设为主程序,其他机器设为非主程序)

master: "YES"

# 爬虫结果文件是否发送SFTP到指定位置YES or NO

sendFtp: "NO"

# 爬虫文件分隔符

separator: ","

如果需要修改redis的访问ip

93ab4cb76999

redis配置.png

SFTP.setting放的是sftp的配置信息。

SFTP_URL=134.64.12.237

SFTP_PORT=21

SFTP_USERNAME=nlkf

SFTP_PASSWORD=Nlkf237#

REMOTE_FILE_PATH=/data/xxzx/dpi

项目部署和使用(window)

93ab4cb76999

项目启动.png

双击start.bat,出现如下画面说明启动成功。

93ab4cb76999

启动画面.png这时可以打开项目的管理页面。http://localhost:8083/crawler/home

93ab4cb76999

首页.png项目版本不同页面可能也不一样,基本功能就是爬虫文件的上传和爬取结果的展示。

93ab4cb76999

上传.png

项目部署和使用(Linux)

Linux下的使用需要用户掌握一定的Linux基础知识,本文档会尽量详细的让没有linux使用经验的人员也能使用。

首先,用户拿到的是一个tar.gz的文件,首先需要解压,

tar -zxvf crawler-v2-1.0-20190621.tar.gz

93ab4cb76999

解压.png

cd crawler-v2-1.0/bin/

sh start.sh

93ab4cb76999

启动画面2.png

查看日志

tail -f /root/crawler-v2-1.0/logs/sys-info

上传爬虫文件

cd /root/crawler-v2-1.0/bin/

sh append /root/dpi_url_20190531.csv

93ab4cb76999

上传成功.png

查看状态

cd /root/crawler-v2-1.0/bin/

sh status.sh

停止服务

cd /root/crawler-v2-1.0/bin/

sh stop.sh

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值