- 博客(6)
- 收藏
- 关注
原创 Scrapy - redis 分布式爬取淘宝商品数据
上一篇文章我们用Scrapy单机爬取淘宝商品数据,由于CPU、IO和带宽等多重限制,单主机爬虫在爬取大量数据时可用性、稳定性和性能都不是很高。为了提高爬取效率、防止被网站反爬虫策略限制IP等各方面原因我们采取Scrapy分布式爬虫。Scrapy分布式原理 打造Scrapy分布式爬虫的关键是调度,因为需要将单机关联起来,我们采用的方式是消息队列。单机架构,只在本机维护一个爬取...
2018-04-27 15:00:23 1365
原创 Scrapy爬取淘宝商品数据保存到mongodb
1. Scrapy介绍 Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy使用Twisted异步网络库处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活地完成各种要求。 Scrapy 整体架构如下图:Scrapy组件:引擎(Scrapy Engine)负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。调度器(Scheduler)调度...
2018-04-23 21:40:56 1060
原创 基于正则表达式和jieba分词的文件名搜索
概述主要对文件夹(包括子文件夹)进行扫描得到所有文件夹名称及文件名称并保存到数据库中,提供文件夹或文件名的检索功能(包括单个关键词检索、多个关键词检索、全文匹配检索)python中的正则表达式(re模块)正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。...
2018-03-23 21:55:16 2216
原创 Flask-Mail使用163邮箱异步发送邮件
很多类型的应用程序都需要在特定事件发生时提醒用户,而常用的通信方法是电子邮件。虽然 Python 标准库中的 smtplib 包可用在 Flask 程序中发送电子邮件,但包装了 smtplib 的Flask-Mail 扩展能更好地和 Flask 集成。使用 pip 安装 Flask-Mail:(venv) $ pip install flask-mailFlask-Mail 配置项Flask-Ma...
2018-03-12 19:18:45 1969
原创 京东手机信息爬取
京东商城有很多商品信息可供爬取,这次主要爬取全部手机综合排序的第一页一、相关爬取页面分析页面地址:https://list.jd.com/list.html?cat=9987,653,655对应源码:其中价格、评论数需要动态获取先来看价格信息,访问的URL格式为https://p.3.cn/prices/mgets?skuIds=J_(data-sku)括号里的data-sku为商品id,打开ur...
2018-03-10 20:47:15 2229 2
原创 Ubuntu 下用Nginx+uwsgi+MySQL部署Flask应用
Ubuntu 下用Nginx+uwsgi+MySQL部署Flask应用一、MySQL安装1.下载官方提供的mysql-apt-config.deb包进行APT源设置,下载地址:https://dev.mysql.com/downloads/repo/apt/运行sudo dpkg -i mysql-apt-config_0.8.9-1_all.deb 一般只需要默认,按方向键选择OK回车即可。完成...
2018-03-02 14:56:50 415
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人