一. 部署&运行
deploy: 部署scrapy爬虫程序
scrapyd-deploy 部署服务器名 -p 项目名称
scrapyd-deploy ubuntu -p douyu
run : 运行
#curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name
curl http://127.0.0.1:6800/schedule.json -d project=douyu -d spider=dy
stop: 停止
#curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid
curl http://127.0.0.1:6800/cancel.json -d project=douyu -d job=
1
二
.
允
许
外
部
访
问
配
置
定
位
配
置
文
件
:
d
e
f
a
u
l
t
s
c
r
a
p
y
d
.
c
o
n
f
f
i
n
d
/
h
o
m
e
/
w
g
−
n
a
m
e
d
e
f
a
u
l
t
s
c
r
a
p
y
d
.
c
o
n
f
c
d
/
h
o
m
e
/
w
g
/
s
c
r
a
p
y
e
n
v
/
l
i
b
/
p
y
t
h
o
n
3.6
/
s
i
t
e
−
p
a
c
k
a
g
e
s
/
s
c
r
a
p
y
d
允
许
外
部
访
问
:
v
i
m
d
e
f
a
u
l
t
s
c
r
a
p
y
d
.
c
o
n
f
b
i
n
d
a
d
d
r
e
s
s
=
0.0.0.0
三
.
远
程
监
控
−
u
r
l
指
令
:
1
、
获
取
状
态
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
d
a
e
m
o
n
s
t
a
t
u
s
.
j
s
o
n
2
、
获
取
项
目
列
表
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
l
i
s
t
p
r
o
j
e
c
t
s
.
j
s
o
n
3
、
获
取
项
目
下
已
发
布
的
爬
虫
列
表
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
l
i
s
t
s
p
i
d
e
r
s
.
j
s
o
n
?
p
r
o
j
e
c
t
=
m
y
p
r
o
j
e
c
t
4
、
获
取
项
目
下
已
发
布
的
爬
虫
版
本
列
表
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
l
i
s
t
v
e
r
s
i
o
n
s
.
j
s
o
n
?
p
r
o
j
e
c
t
=
m
y
p
r
o
j
e
c
t
5
、
获
取
爬
虫
运
行
状
态
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
l
i
s
t
j
o
b
s
.
j
s
o
n
?
p
r
o
j
e
c
t
=
m
y
p
r
o
j
e
c
t
6
、
启
动
服
务
器
上
某
一
爬
虫
(
必
须
是
已
发
布
到
服
务
器
的
爬
虫
)
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
s
c
h
e
d
u
l
e
.
j
s
o
n
(
p
o
s
t
方
式
,
d
a
t
a
=
"
p
r
o
j
e
c
t
"
:
m
y
p
r
o
j
e
c
t
,
"
s
p
i
d
e
r
"
:
m
y
s
p
i
d
e
r
)
7
、
删
除
某
一
版
本
爬
虫
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
d
e
l
v
e
r
s
i
o
n
.
j
s
o
n
(
p
o
s
t
方
式
,
d
a
t
a
=
"
p
r
o
j
e
c
t
"
:
m
y
p
r
o
j
e
c
t
,
"
v
e
r
s
i
o
n
"
:
m
y
v
e
r
s
i
o
n
)
8
、
删
除
某
一
工
程
,
包
括
该
工
程
下
的
各
版
本
爬
虫
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
d
e
l
p
r
o
j
e
c
t
.
j
s
o
n
(
p
o
s
t
方
式
,
d
a
t
a
=
"
p
r
o
j
e
c
t
"
:
m
y
p
r
o
j
e
c
t
)
四
.
常
用
脚
本
循
环
任
务
:
w
h
i
l
e
t
r
u
e
d
o
c
u
r
l
h
t
t
p
:
/
/
127.0.0.1
:
6800
/
s
c
h
e
d
u
l
e
.
j
s
o
n
−
d
p
r
o
j
e
c
t
=
F
X
H
−
d
s
p
i
d
e
r
=
f
i
v
e
s
e
c
i
n
f
o
s
l
e
e
p
10
d
o
n
e
实
时
时
间
打
印
:
e
c
h
o
"
1 二. 允许外部访问配置 定位配置文件: default_scrapyd.conf find /home/wg -name default_scrapyd.conf cd /home/wg/scrapy_env/lib/python3.6/site-packages/scrapyd 允许外部访问: vim default_scrapyd.conf bind_address = 0.0.0.0 三. 远程监控-url指令: 1、获取状态 http://127.0.0.1:6800/daemonstatus.json 2、获取项目列表 http://127.0.0.1:6800/listprojects.json 3、获取项目下已发布的爬虫列表 http://127.0.0.1:6800/listspiders.json?project=myproject 4、获取项目下已发布的爬虫版本列表 http://127.0.0.1:6800/listversions.json?project=myproject 5、获取爬虫运行状态 http://127.0.0.1:6800/listjobs.json?project=myproject 6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫) http://127.0.0.1:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider}) 7、删除某一版本爬虫 http://127.0.0.1:6800/delversion.json (post方式,data={"project":myproject,"version":myversion}) 8、删除某一工程,包括该工程下的各版本爬虫 http://127.0.0.1:6800/delproject.json (post方式,data={"project":myproject}) 四. 常用脚本 循环任务: while true do curl http://127.0.0.1:6800/schedule.json -d project=FXH -d spider=five_sec_info sleep 10 done 实时时间打印: echo "
1二.允许外部访问配置定位配置文件:defaultscrapyd.conffind/home/wg−namedefaultscrapyd.confcd/home/wg/scrapyenv/lib/python3.6/site−packages/scrapyd允许外部访问:vimdefaultscrapyd.confbindaddress=0.0.0.0三.远程监控−url指令:1、获取状态http://127.0.0.1:6800/daemonstatus.json2、获取项目列表http://127.0.0.1:6800/listprojects.json3、获取项目下已发布的爬虫列表http://127.0.0.1:6800/listspiders.json?project=myproject4、获取项目下已发布的爬虫版本列表http://127.0.0.1:6800/listversions.json?project=myproject5、获取爬虫运行状态http://127.0.0.1:6800/listjobs.json?project=myproject6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)http://127.0.0.1:6800/schedule.json(post方式,data="project":myproject,"spider":myspider)7、删除某一版本爬虫http://127.0.0.1:6800/delversion.json(post方式,data="project":myproject,"version":myversion)8、删除某一工程,包括该工程下的各版本爬虫http://127.0.0.1:6800/delproject.json(post方式,data="project":myproject)四.常用脚本循环任务:whiletruedocurlhttp://127.0.0.1:6800/schedule.json−dproject=FXH−dspider=fivesecinfosleep10done实时时间打印:echo"(date +%Y-%m-%d:%H:%M.%S), xx-spider定时启动–"