自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Scrapy - redis 分布式爬取淘宝商品数据

      上一篇文章我们用Scrapy单机爬取淘宝商品数据,由于CPU、IO和带宽等多重限制,单主机爬虫在爬取大量数据时可用性、稳定性和性能都不是很高。为了提高爬取效率、防止被网站反爬虫策略限制IP等各方面原因我们采取Scrapy分布式爬虫。Scrapy分布式原理       打造Scrapy分布式爬虫的关键是调度,因为需要将单机关联起来,我们采用的方式是消息队列。单机架构,只在本机维护一个爬取...

2018-04-27 15:00:23 1364

原创 Scrapy爬取淘宝商品数据保存到mongodb

1. Scrapy介绍      Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy使用Twisted异步网络库处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活地完成各种要求。 Scrapy 整体架构如下图:Scrapy组件:引擎(Scrapy Engine)负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。调度器(Scheduler)调度...

2018-04-23 21:40:56 1059

原创 基于正则表达式和jieba分词的文件名搜索

概述主要对文件夹(包括子文件夹)进行扫描得到所有文件夹名称及文件名称并保存到数据库中,提供文件夹或文件名的检索功能(包括单个关键词检索、多个关键词检索、全文匹配检索)python中的正则表达式(re模块)正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。...

2018-03-23 21:55:16 2216

原创 Flask-Mail使用163邮箱异步发送邮件

很多类型的应用程序都需要在特定事件发生时提醒用户,而常用的通信方法是电子邮件。虽然 Python 标准库中的 smtplib 包可用在 Flask 程序中发送电子邮件,但包装了 smtplib 的Flask-Mail 扩展能更好地和 Flask 集成。使用 pip 安装 Flask-Mail:(venv) $ pip install flask-mailFlask-Mail 配置项Flask-Ma...

2018-03-12 19:18:45 1968

原创 京东手机信息爬取

京东商城有很多商品信息可供爬取,这次主要爬取全部手机综合排序的第一页一、相关爬取页面分析页面地址:https://list.jd.com/list.html?cat=9987,653,655对应源码:其中价格、评论数需要动态获取先来看价格信息,访问的URL格式为https://p.3.cn/prices/mgets?skuIds=J_(data-sku)括号里的data-sku为商品id,打开ur...

2018-03-10 20:47:15 2229 2

原创 Ubuntu 下用Nginx+uwsgi+MySQL部署Flask应用

Ubuntu 下用Nginx+uwsgi+MySQL部署Flask应用一、MySQL安装1.下载官方提供的mysql-apt-config.deb包进行APT源设置,下载地址:https://dev.mysql.com/downloads/repo/apt/运行sudo dpkg -i mysql-apt-config_0.8.9-1_all.deb 一般只需要默认,按方向键选择OK回车即可。完成...

2018-03-02 14:56:50 415

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除