无法通过公网IP访问windows下Scrapyd

Windows环境下: 一般无法通过公网IP访问scrapyd服务,无非是配置文件没有将bind_address修改为0.0.0.0,或者防火墙没有配置6800端口。 我在微软云上创建了两个云主机实例:一个W10,一个Win Srv2012,W10在防火墙规则里加上6800端口,然后安装scrap...

2019-01-15 11:13:23

阅读数 62

评论数 0

python如何把模块上传到PyPI

发布步骤准备发布构建发布 准备发布 1、首先为模块创建一个文件夹 创建了文件夹之后,将你要发布的文件复制到这个文件夹中。 2、在新文件夹中创建一个__init__.py文件 3、在新文件夹中创建一个setup.py文件,这个文件包含了发布的元数据。内容如下: from distutils.core...

2019-01-04 17:36:23

阅读数 86

评论数 0

COPY failed: stat /var/lib/docker/tmp/docker-builder633327200/etc/scrapyd/scrapyd.conf: no such file

错误描述:将scrapyd.conf配置文件打包到docker镜像的/etc/scrapyd/目录下 错误原因:我在Dockerfile文件中用的COPY命令如下: COPY /etc/scrapyd/scrapyd.conf /etc/scrapyd/ 解决方法: 将本地/etc/scrapyd...

2018-12-22 12:42:51

阅读数 213

评论数 0

爬虫分布式会自动对请求队列去重,那么如何对start_urls去重

背景描述 最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论,然后分析过滤出负面评论,依据最后的分析结果,可以做到提前发现问题、预防问题、解决或改善问题! 爬取思路 因为在一级页面里是拿不到我们想要的数据的,必须要进到二级页面,所以设计思路是,拿...

2018-12-20 09:11:49

阅读数 126

评论数 0

App模拟爬取Android APP时启动报错

An unknown error while processing the command. Original error: activity and pkg are required to start 我这种报错情况是因为电脑开启了代理,把代理关了就OK了,不是什么大问题,强迫自己养成记录问题的...

2018-12-17 09:36:56

阅读数 65

评论数 0

Scrapyd制作Docker镜像的步骤

分布式主要通过scrapyd⼯工具来部署,scrapyd是⼀一个运⾏行行Scrapy爬⾍虫的服务程序,它提供⼀一 系列列HTTP接⼝口来帮助我们部署、启动、停⽌止、删除爬⾍虫程序。 Scrapyd⽀支持版本管理理,同时可以管理理多个爬⾍虫任务,利利⽤用它我们可以⾮非常⽅方便便地完成 Scrapy爬...

2018-12-13 17:50:46

阅读数 85

评论数 0

Cannot establish TLS with client: TlsException("SSL handshake error")

mitmproxy & python - ignore all hosts with https/ssl PC端安装mitmproxy,生成证书,并在手机端安装android证书,然后设置手机ip代理,仍然报错,错误如下图 找了两天终于在stackoverflow找到了解...

2018-12-13 17:20:42

阅读数 1112

评论数 7

提示
确定要删除当前文章?
取消 删除
关闭
关闭