2019年12月_wwxxee

原创爬虫框架Scrapy使用详细介绍--简单入门

爬虫框架Scrapy使用详细介绍--简单入门爬虫框架Scrapy使用详细介绍--简单入门 Scrapy 框架（本文仅用作个人记录）- Scrapy框架是用纯python实现一个为了爬去网站数据，提取结构性数据而编写的应用框架，用途非常广泛。-&nbs...

2019-12-30 18:32:29 697 1

原创死亡公司公墓

本次爬取的是新经济死亡公司数据库，从死亡原因，获投状态，存活天数等多个指标呈现死亡公司全貌。使用Scrapy爬虫框架抓取数据。##抓取###1.分析请求url = “https://www.itjuzi.com/deathCompany”通过刷新页面可以在网络请求里发现Ajax请求，返回数据格式为Json。向该响应的Request URL发送请求即可。###2.明确抓取字段抓取字段...

2019-12-30 18:28:05 1248

原创 Selenium爬取淘宝数据

使用Selenium抓取淘宝数据淘宝的反扒措施太严格了。搞了半天没破解，最后使用使用所见即可爬的Selenium。在正常浏览器打开淘宝在console面板输入window.navigator.webdriver，返回的时undefined,使用selenium驱动的浏览器同样的操作，返回的是True。可能是淘宝的反扒措施之一。尝试了淘宝的登录页面，但是没有获取到“密码登录”的接口。所以直...

2019-12-30 17:53:22 762 1

原创爬虫框架Scrapy中DownloaderMiddleware的用法

DownloaderMiddleware:下载中间件。它是处于scrapy的Request和Response之间的处理模块。流程：Scheduler 从队列中拿出一个Request发送给Downloader执行下载，这个过程会经过DownloaderMiddleware的处理，另外，当Downloader将Response返回给Spider时会再次经过DownloadederMiddlewa...

2019-12-30 17:49:13 414

原创模拟登录Github

1. 检查请求首先来到Github的登录页面，如下所示。然后打开开发者模式，切换到Netword选项卡下，然后在浏览器输入用户名和密码，不要着急点击登录，先清除Network下的所有请求。然后点击登录，会看到有很多的请求被发送出去。接着找到第一个session请求，查看该post请求的form data，如下图所示。其中的login 和 password就是我们所输入的账号名与密码。...

2019-12-30 17:48:36 477

原创 Scrapy-通用爬虫

#1.CrawlSpiderCrawlSpider是Scrapy提供的一个通用Spider。在Spider里，我们可以指定一些爬取规则来实现页面的提取，这些爬取规则有一个专门的数据结构Rule表示。Rule里面包含提取和跟进页面的配置，Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取，哪些页面的爬取规则结果用哪个方法解析。CrawlSpider继承自Spider类。它有一个非...

2019-12-30 17:47:24 283

原创 Scrapy爬取新浪微博用户粉丝数据

一般来说pc端的信息是最为全面的，但是防范措施也是最严格的。所以不能走weibo.com这个域名下进行爬取，新浪微博在pc端的反扒措施较为全面。而手机端的数据则相对好爬取，而且数据都是Json格式，解析起来十分方便。新浪微博的m端域名为m.weibo.cn。虽然是手机端，但是我们依然可以在电脑浏览器打开该网站，不需要连接手机设置手机网络代理什么的。##1. 确认爬取目标本次爬取的目标用户为微博...

2019-12-30 17:45:58 4185 5

原创 Scrapy-redis分布式爬虫详解

1. 分布式爬虫原理Scrapy单机爬虫有一个本地爬取队列Queue，如果新的Request生成就会放到队列里面，随后Request被Scheduler调度，之后Request交给Downloader执行。分布式爬虫有多个Scheduler和多个Downloader，而爬取队列始终为一个，也就是共享爬取队列，这样才能保证Scheduler从队列里调度某个Request之后，其他的Schedule...

2019-12-30 17:45:09 470

原创搭建Sqli-labs靶场

Sqli-labs是一个用来练习Sql注入的教程。注意：sqli-labs靶场需要php环境。而且对php7不兼容，当初写这个靶场印度程序员使用的版本不是php7，当时的一些函数在php7中被删除了。所以，使用此靶场请下载5.5或之前的版本。下载地址：https://github.com/Audi-1/sqli-labswindows环境下下载压缩包。使用phpstudy搭建环境。直...

2019-12-30 17:41:35 1008 1

wwxxee