Portia---一款开源可视化爬虫工具

本文链接：https://blog.csdn.net/2401_84584796/article/details/138294552

< …FOLDER> 路径自定义即可，可在后面加上portia的版本

docker run -i -t --rm -v <PROJECTS_FOLDER>:/app/data/projects:rw -p 9001:9001 scrapinghub/portia

git上是如下语句

docker run -v ~/portia_projects:/app/data/projects:rw -p 9001:9001 scrapinghub/portia


具体可参考[官方文档](https://bbs.csdn.net/topics/618317507)


##### 使用Portia包


###### 新建project


Portia安装完成以后使用浏览器打开`http://localhost:9001`, 在create a new project 中输入项目名  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190701151523633.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM3Mjc1NDA1,size_16,color_FFFFFF,t_70)  
 点击　New spider 创建一个新的spider  
 右边侧栏会提示你输入一个url，Portia会将网页的url作为一个start page。  
 这个start page一般被用来当做seek（种子），用来获得更多的链接。


![在这里插入图片描述](https://img-blog.csdnimg.cn/20190701151923879.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdG