java opendht_GitHub - DHT-open/youseed-spider-saver-public: DHT磁力爬虫入库程序,将爬取到的数据保存至Mongo、ES或者Mysql...

Youseed磁力爬虫入库程序

此程序使用Java编写,负责将rabbitMQ消息队列中的数据保存至数据库或者搜索引擎。

work.png

注意:此程序是上图右侧方框“保存磁力数据”的部分。

此程序仅用作技术学习和研究

功能

读取消息队列,将爬虫抓取到的数据保存至:

Youseed Mongodb数据库;

Youseed Elasticsearch搜索引擎;

“纸上烤鱼磁力搜索引擎”数据库

注意:此爬虫程序主要负责保存数据,需要配合“dht_spider.py”,或者“dht_spider_zsky.py”爬虫程序使用。

程序特点

兼容性:支持Mongodb、Mysql和Elasticsearch搜索引擎;

实时和定时:支持Elasticsearch中新资源的实时索引,支持旧资源的定时更新;

支持不良资源鉴定:依据spam.txt中的关键字鉴别不良资源,并予以标记

硬件要求

内存:约200M

软件要求

需要安装以下软件:

jdk运行环境

安装(以centos7为例)

安装JDK

yum install java-1.8.0-openjdk.x86_64

下载程序

将编译好的jar包spider-saver-public-1.0.0.jar和配置文件youseed-spider-saver.yml下载至本地。

修改配置

编辑文件youseed-spider-saver.yml,修改连接配置:

#MongoDB连接配置

mongo:

url: 127.0.0.1

port: 27017

db: seed

admindb:

user:

psw:

#ES搜索引擎连接配置

es:

url: 127.0.0.1

port: 9300

#mysql连接配置(for 纸上烤鱼)

mysql:

url: jdbc:mysql://localhost:3306/zsky?useUnicode=true&characterEncoding=utf-8&serverTimezone=GMT%2B8

user: root

psw:

运行

控制台运行

使用如下命令在控制台运行入库程序(注意--config的值必须是绝对路径):

java -jar -Xms50m -Xmx128m /opt/spider/app/youseed-spider-saver-public-1.0.0.jar --config=/opt/spider/app/youseed-spider-saver.yml

程序会输出可选命令:

m: 写入/更新Mongodb

m1: |-------写入新资源到Mongo

m2: |-------更新Mongo

m3: |-------写入统计到Mongo

es: 写入/更新ES(根据esUpdateTime设置,自动选择实时或定时更新)

es1: |-------写入新资源到ES

es2: |-------更新ES(常驻内存并实时更新)

es3: |-------更新ES(更新完毕当前批次后关闭)

zsky: 写入/更新纸上烤鱼(zsky)

zsky1: |-------写入新资源到Mysql

zsky2: |-------更新Mysql

zsky3: |-------写入统计到Mysql

请选择一项操作(输入编号后回车):

接下来输入zsky保存到“纸上烤鱼”数据库

后台运行

输入如下命令,后台启动“纸上烤鱼”入库

nohup java -jar -Xms50m -Xmx128m /opt/spider/app/youseed-spider-saver-public-1.0.0.jar --config=/opt/spider/app/youseed-spider-saver.yml zsky > /opt/spider/logs/spider-saver-mongo.log 2>&1 &

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值