- 博客(4)
- 收藏
- 关注
原创 Scrapy-Redis分布式爬虫组件
Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、同步爬取)来提高爬虫的爬行效率。 安装:通过pip install scrapy-redis即可安装。 分布式爬虫的优点: 可以充分利用多台...
2019-04-02 22:56:40 142
原创 Scrapy框架架构
Scrapy框架介绍: 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。 Scrapy架构图: 流程图(1): 流程图(2): Scrapy框架模块功能: Scrap...
2019-04-02 22:50:34 124
原创 supervisor管理UWSGI+NGINX的项目部署
在开发机上的准备工作: 1、用pip freeze > requirements.txt将当前环境的包导出到requirements.txt文件中,方便部署的时候安装。 2、然后进入到项目中,使用以下命令做代码提交: 初始化一个残酷 git init 添加远程的仓库地址 git remote add origin xxx.git 添加所有的代码到缓存区 git add . 将代码...
2019-04-02 22:37:55 484
原创 gulp实现自动化开发流程
nvm安装: nvm(Node Version Manager)是一个用来管理node版本的工具。我们之所以需要使用node,是因为我们需要使用node中的npm(Node Package Manager),使用npm的目的是为了能够方便的管理一些前端开发的包 1、 Mac或者Linux安装nvm:https://github.com/creationix/nvm 1、 Windows到这个链接下...
2019-04-02 22:13:29 305
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人