2020年07月_Claire_chen_jia

原创 python爬虫之Scrapy介绍九——scrapyd部署scrapy项目

1 scrapyd的介绍scrapyd是一个用于部署和运行scrapy爬虫的程序，它允许你通过JSON API来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们所谓json api本质就是post请求的webapi网址：https://scrapyd.readthedocs.io/en/latest/1.1 scrapyed安装scrapyd服务端安装:pip install scrapydscrapyd客户端安装:pip install

2020-07-20 17:47:35 483

原创 python爬虫之Scrapy介绍八——Scrapy-分布式（以爬取京东读书为示例）

Scrapy-分布式（scrapy-redis）介绍1 Scrapy-分布式介绍1.1 Scrapy-redis工作原理1.2 Scrapy-redis 安装和基本使用1.2.1 安装1.2.2 基本使用2 Scrapy转为Scrapy-分布式2.1 scrapy爬取京东读书2.2 改为Scrapy-分布式1 Scrapy-分布式介绍1.1 Scrapy-redis工作原理首先回顾一下Scrapy的工作流程，然后进一步介绍Srapy-分布式的工作流程和原理。（1）Scrapy的工作流程详见：pyt

2020-07-15 16:29:25 948

原创倾向匹配得分PSM学习笔记

一直在想写倾向匹配得分PSM学习笔记，好好总结一下。但一直拖着，对倾向匹配得分法虽然思想比较理解，但没有系统地学习，所以这篇博客总结一下老师们的一些文章，在总结中学习，哈哈~1 产生背景参考学习文章：【内容回顾】倾向性评分匹配流行病学病因研究中，为了探讨某因素(处理或干预，后统称“处理因素”)与结局(如疾病)的关系，需要设立对照组进行比较。但对照组的重要特征是具备可比性，即除某因素外，其他因素相同，不会干扰处理因素和结局。因为如果研究人群中存在一个或多个既与观察结局有关，又与处理因素有关的外来因素，

2020-07-15 11:47:49 37333 12

原创 python爬虫之Scrapy介绍七——Redis内存数据库使用介绍

1 数据库的发展历史随着互联网+大数据时代的来临，传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量。这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力，来解决系统性能上的瓶颈。（1）单数据库实例：在互联网+大数据时代来临之前，企业的一些内部信息管理系统，一个单个数据库实例就能满足系统的需求（2）缓存（memcache）+单数据库实例：随着系统访问用户的增多，数据量的增大，单个数据库实例已经满足不了系统的读取需求。（3）缓存+主从数据库+读写分离：缓存可以缓解系统的读

2020-07-14 12:02:12 626

原创 python爬虫之Scrapy介绍六——下载图片或者文件

本篇博文主要介绍利用scrapy内置的下载模块来下载文件和图片。相对于自己撰写的代码，它具有如下特点：1：避免重新下载最近已经下载过的数据2：可以方便的指定文件存储的路径3：可以将下载的图片转换成通用的格式。如：png,jpg4：可以方便的生成缩略图5：可以方便的检测图片的宽和高，确保他们满足最小限制6：异步下载，效率非常高1 Scrapy下载图片使用images pipeline 下载文件步骤:1）定义好一个Item，然后在这个item中定义两个属性，分别为image_urls以及im

2020-07-04 10:54:06 406

原创 python爬虫之Scrapy介绍五——下载中间件和随机设置header和ip

本篇博文主要介绍Scrapy框架里面的下载中间件，在middlewares.py文件中可以找到相应的代码（class GithubDownloaderMiddleware）。并且通过修改中间件的代码可以随机设置请求头和ip。下面我们会先介绍下载中间件的代码内容，然后讲如何随机设置header和ip1 下载中间件下面是下载中间件的代码class GithubDownloaderMiddleware: # Not all methods need to be defined. If a metho

2020-07-04 09:38:41 749

原创 python爬虫之Scrapy介绍四——模拟登录

本篇博文介绍的是如何实现用Scrapy实现登录，这里介绍两种响应，一种是get响应（人人网登录为示例），一种是post响应（GitHub为示例）。1 模拟登录人人网import scrapyclass RenrenSpider(scrapy.Spider): name = 'renren' allowed_domains = ['renren.com'] start_urls = ['http://www.renren.com/974676254/profile']

2020-07-03 22:29:08 253

原创 python爬虫之Scrapy CrawlSpider说明——以阳光平台为例

本博客通过采用两种方式来爬取阳光平台，第一种方式是 Scrapy Spider 方式爬取，第二种是Scrapy CrawlSpider爬取。相比于第一种，第二种更加简洁方便。通过比较可以突出Scrapy CrawlSpider 适用于在主页中寻找下一页的URL地址或者内容的URL地址上1 Scrapy Spider 爬取阳光平台前面步骤（如创建爬虫项目、setting、pipeline、item等的设置）将不在赘述，可以参考之前的博文。下面的文件主要是爬虫逻辑的搭建的代码展示。import scr

2020-07-01 17:02:31 320

原创 python爬虫之Scrapy介绍三——文档介绍

配置文件认识1 Scrapy log信息的认知2 Scrapy shell3 Scrapy settings说明和配置1 Scrapy log信息的认知[ scrapy.utils.log] INFO: Overridden settings:自己设置的setting的信息[ scrapy . middleware] INFO: Enabled extensions :启动的扩展，默认有一堆[scrapy . middleware] INFO: Enabled downloader middlewa

2020-07-01 16:18:08 1733

Claire_chen_jia的博客