自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wwxxee

Go

  • 博客(9)
  • 收藏
  • 关注

原创 爬虫框架Scrapy使用详细介绍--简单入门

爬虫框架Scrapy使用详细介绍--简单入门 爬虫框架Scrapy使用详细介绍--简单入门 Scrapy 框架(本文仅用作个人记录)-  Scrapy框架是用纯python实现一个为了爬去网站数据,提取结构性数据而编写的应用框架,用途非常广泛。-&nbs...

2019-12-30 18:32:29 697 1

原创 死亡公司公墓

本次爬取的是新经济死亡公司数据库,从死亡原因,获投状态,存活天数等多个指标呈现死亡公司全貌。使用Scrapy爬虫框架抓取数据。##抓取###1.分析请求url = “https://www.itjuzi.com/deathCompany”通过刷新页面可以在网络请求里发现Ajax请求,返回数据格式为Json。向该响应的Request URL发送请求即可。###2.明确抓取字段抓取字段...

2019-12-30 18:28:05 1248

原创 Selenium爬取淘宝数据

使用Selenium抓取淘宝数据淘宝的反扒措施太严格了。搞了半天没破解,最后使用使用所见即可爬的Selenium。在正常浏览器打开淘宝在console面板输入window.navigator.webdriver,返回的时undefined,使用selenium驱动的浏览器同样的操作,返回的是True。可能是淘宝的反扒措施之一。尝试了淘宝的登录页面,但是没有获取到“密码登录”的接口。所以直...

2019-12-30 17:53:22 762 1

原创 爬虫框架Scrapy中DownloaderMiddleware的用法

DownloaderMiddleware:下载中间件。它是处于scrapy的Request和Response之间的处理模块。流程:Scheduler 从队列中拿出一个Request发送给Downloader执行下载,这个过程会经过DownloaderMiddleware的处理,另外,当Downloader将Response返回给Spider时会再次经过DownloadederMiddlewa...

2019-12-30 17:49:13 414

原创 模拟登录Github

1. 检查请求首先来到Github的登录页面,如下所示。然后打开开发者模式,切换到Netword选项卡下,然后在浏览器输入用户名和密码,不要着急点击登录,先清除Network下的所有请求。然后点击登录,会看到有很多的请求被发送出去。接着找到第一个session请求,查看该post请求的form data,如下图所示。其中的login 和 password就是我们所输入的账号名与密码。...

2019-12-30 17:48:36 477

原创 Scrapy-通用爬虫

#1.CrawlSpiderCrawlSpider是Scrapy提供的一个通用Spider。在Spider里,我们可以指定一些爬取规则来实现页面的提取,这些爬取规则有一个专门的数据结构Rule表示。Rule里面包含提取和跟进页面的配置,Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取,哪些页面的爬取规则结果用哪个方法解析。CrawlSpider继承自Spider类。它有一个非...

2019-12-30 17:47:24 283

原创 Scrapy爬取新浪微博用户粉丝数据

一般来说pc端的信息是最为全面的,但是防范措施也是最严格的。所以不能走weibo.com这个域名下进行爬取,新浪微博在pc端的反扒措施较为全面。而手机端的数据则相对好爬取,而且数据都是Json格式,解析起来十分方便。新浪微博的m端域名为m.weibo.cn。虽然是手机端,但是我们依然可以在电脑浏览器打开该网站,不需要连接手机设置手机网络代理什么的。##1. 确认爬取目标本次爬取的目标用户为微博...

2019-12-30 17:45:58 4185 5

原创 Scrapy-redis分布式爬虫详解

1. 分布式爬虫原理Scrapy单机爬虫有一个本地爬取队列Queue,如果新的Request生成就会放到队列里面,随后Request被Scheduler调度,之后Request交给Downloader执行。分布式爬虫有多个Scheduler和多个Downloader,而爬取队列始终为一个,也就是共享爬取队列,这样才能保证Scheduler从队列里调度某个Request之后,其他的Schedule...

2019-12-30 17:45:09 470

原创 搭建Sqli-labs靶场

Sqli-labs是一个用来练习Sql注入的教程。注意:sqli-labs靶场需要php环境。而且对php7不兼容,当初写这个靶场印度程序员使用的版本不是php7,当时的一些函数在php7中被删除了。所以,使用此靶场请下载5.5或之前的版本。下载地址:https://github.com/Audi-1/sqli-labswindows环境下下载压缩包。使用phpstudy搭建环境。直...

2019-12-30 17:41:35 1008 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除