weixin_43412054-CSDN博客

原创 Scrapy-Redis分布式爬虫组件

Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy-Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy框架中，使得爬虫可以进行分布式。可以充分的利用资源（多个ip、更多带宽、同步爬取）来提高爬虫的爬行效率。安装：通过pip install scrapy-redis即可安装。分布式爬虫的优点：可以充分利用多台...

2019-04-02 22:56:40 142

原创 Scrapy框架架构

Scrapy框架介绍：写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。 Scrapy架构图：流程图（1）：流程图（2）： Scrapy框架模块功能： Scrap...

2019-04-02 22:50:34 124

原创 supervisor管理UWSGI+NGINX的项目部署

在开发机上的准备工作： 1、用pip freeze > requirements.txt将当前环境的包导出到requirements.txt文件中，方便部署的时候安装。 2、然后进入到项目中，使用以下命令做代码提交：初始化一个残酷 git init 添加远程的仓库地址 git remote add origin xxx.git 添加所有的代码到缓存区 git add . 将代码...

2019-04-02 22:37:55 484

原创 gulp实现自动化开发流程

nvm安装： nvm（Node Version Manager）是一个用来管理node版本的工具。我们之所以需要使用node，是因为我们需要使用node中的npm(Node Package Manager)，使用npm的目的是为了能够方便的管理一些前端开发的包 1、 Mac或者Linux安装nvm：https://github.com/creationix/nvm 1、 Windows到这个链接下...

2019-04-02 22:13:29 305

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人