![](https://img-blog.csdnimg.cn/20190707165507214.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Scrapy 爬虫框架
此专栏介绍了Scrapy框架的体系结构、项目创建、配置、爬虫HTML的抓取与价值信息的分析、数据库保存等相关操作
lsqzedu
专注Python、区块链技术文章分享
展开
-
01_体系结构与环境搭建
文章目录Scrapy简介Scrapy组件介绍pip安装scrapyScrapy简介一个快速、高层次的屏幕抓取和web抓取的Python框架,用于抓取web站点并从页面中提取结构化的数据,可以用于数据挖掘、监测和自动化测试,可根据具体需求个性化定制。Scrapy架构图:Scrapy组件介绍Scrapy Engine(引擎):用来处理整个系统的数据传递,是整个系统的核心部分。Sched...原创 2019-08-17 20:13:17 · 363 阅读 · 0 评论 -
02_第一个爬虫项目
文章目录创建一个scrapy项目创建Spider解析器项目功能模块介绍配置User-Agent 伪装请求启动爬虫获取数据创建一个scrapy项目虽然是采用cmd命令来创建,但是可以通过scrapy -h来查询相关的子命令,最后可以通过scrapy startproject douban方式来创建项目C:\Users\Administrator\Desktop>scrapy -h...原创 2019-08-17 20:44:39 · 568 阅读 · 0 评论 -
03_xpath语法介绍
文章目录Xpath简介Xpath语法Xpath实践Xpath简介XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航,其实HTML就是一种特殊的XML,因此大家在学习XPath时需要了解基本的HTML和XMLXPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元...原创 2019-08-17 20:59:47 · 222 阅读 · 0 评论 -
04_xpath获取有价值的数据
文章目录豆瓣电影页分析第一页下载实现前5部电影数据如下博文配套视频课程:24小时实现从零到AI人工智能豆瓣电影页分析已经向您讲解了如何在 XML 文档中查找信息,具体来说已经学会了如果获取元素、内容、属性,并且还知道如何通过标签的属性来进筛选与过滤。本章节来讲解如何通过xpath获取豆瓣的数据第一页下载实现# -*- coding: utf-8 -*-import scrap...原创 2020-02-21 12:47:31 · 326 阅读 · 0 评论 -
05_Item模型封装数据
文章目录创建Item模型层封装已爬取数据yield的语法介绍创建Item模型层前面我们已经可以把第一页的数据获取,但是仅仅是在控制台打印。在Scrapy还有一个Item的模块,此类就是模型层,主要完成对价值数据的封装,然后在写入到数据库中import scrapy# 此类就是模型层,主要完成对价值数据的封装,然后在写入到数据库中class DoubanItem(scrapy.Ite...原创 2019-08-17 21:31:36 · 372 阅读 · 0 评论 -
06_yield与自动翻页
yield优点yield 的好处是显而易见的,把一个函数改写为一个 generator 就获得了迭代能力,比起用类的实例保存状态来计算下一个 next() 的值,不仅代码简洁,而且执行流程异常清晰而在Scrapy爬虫框架中,yield有天然的使用场景,因为我们并不知道爬虫每次获取数据的大小,如果每次都一起返回则数据量会非常大,此时如果采用yield来优化,则代码会非常简洁且高效yiel...原创 2019-08-17 21:40:55 · 217 阅读 · 0 评论 -
07_爬虫伪装与自动登录
文章目录反爬虫技术爬虫技术随机User-Agent设置反爬虫技术判断User-Agent,是否为浏览器判断短时间内一个IP的访问次数有些资源必须用户登录后才能访问短时间同一个用户使用不同IP访问资源异常登录 验证码,滑动单击验证 数据加密处理爬虫技术User-Agent:发起请求时添加头信息伪装浏览器 短时间内访问次数限制可以使用代理或者设置延迟爬取登录后访问,模拟登...原创 2019-08-18 18:10:38 · 375 阅读 · 0 评论 -
08_基于IP的伪装
文章目录爬虫的伪装动态IP接入指南IP代理中间件编写Setting中配置Middleware爬虫的伪装如果不进行伪装则我们每次采用相同IP抓取数据时可以会被目前服务器的防火墙之别,伪装有两种:配置代理IP和user-agent中间件编写,需要先注册阿布云动态IP接入指南注册阿布云之后,可以选择1元购买1小时进行动态IP的测试。如果购买成功打开对应的接入指南会有提示scrapy的相...原创 2019-08-18 18:26:42 · 1685 阅读 · 0 评论 -
09_自动登录实现
登录验证的API推荐滑动验证码破解平台:http://api.4xx3.cn/云打码:http://www.yundama.com/price.html超级鹰:http://www.chaojiying.com/cases.html如何发送登录表单由于是表单,必须发送一个Post请求,因此创建FromRequest请求,并且设置登录成功后要执行的方法class JsSpide...原创 2019-08-18 18:33:09 · 213 阅读 · 0 评论 -
10_基于验证码登录
文章目录PIL库基本介绍完成登录验证码识别操作PIL库基本介绍PIL:Python Imaging Library,已经是Python平台事实上的图像处理标准库了。PIL功能非常强大,但API却非常简单易用# 加载图片data = Image.open("../data/getcode.do.jpg")data.show()# 把图片转化为矩阵类型data = np.array...原创 2019-08-18 18:38:53 · 192 阅读 · 0 评论 -
11_简书业务分析
文章目录简书结构分析创建简书爬虫项目创建crawl解析器配置简书下载格式简书结构分析创建简书爬虫项目C:\Users\Administrator\Desktop>scrapy startproject jianshuNew Scrapy project 'jianshu', using template directory 'd:\anaconda3\lib\site-packa...原创 2019-08-18 21:00:50 · 197 阅读 · 0 评论 -
12_获取简书文章数据
文章目录简书URL地址分析获取简书文章数据简书URL地址分析可以指定爬虫抓取的规则,支持正则表达式,目前简书https://www.jianshu.com/p/df7cad4eb8d8https://www.jianshu.com/p/07b0456cbadb?*****https://www.jianshu.com/p/.*rules = ( Rule(Li...原创 2019-08-18 21:18:25 · 184 阅读 · 0 评论 -
13_获取ajax数据
文章目录ChromeDriver介绍重构下载器增加ajax功能重写process_request方法ChromeDriver介绍chromeDriver 是 google 为网站开发人员提供的自动化测试接口,WebDriver是一个开源工具,用于在许多浏览器上自动测试webapps。它提供了导航到网页,用户输入,JavaScript执行等功能ChromeDriver的安装一定要与Ch...原创 2019-08-18 21:28:34 · 167 阅读 · 0 评论 -
14_py连接mysql数据库
文章目录Pycharm中DataBase使用配置数据库连接信息选择schema,可以看到数据表信息打开sql面板,输入查询SQL执行Pycharm中DataBase使用显示Database功能(已有自动忽略)窗口右侧打开Database配置数据库连接信息选择schema,可以看到数据表信息打开sql面板,输入查询SQL执行...原创 2019-08-18 21:38:45 · 204 阅读 · 0 评论 -
15_爬虫数据入库
文章目录首先下载mysql驱动python连接mysql数据库数据插入操作数据更新操作数据查询操作查询分页实现首先下载mysql驱动C:\Users\Administrator>pip install mysqlLooking in indexes: https://mirrors.aliyun.com/pypi/simple/Collecting mysqlRequiremen...原创 2019-08-18 21:52:51 · 311 阅读 · 0 评论 -
16_爬虫数据入库
文章目录创建数据库的表结构实现数据插入功能创建数据库的表结构-- auto-generated definitiondrop database if exists jianshu;create database jianshu default character set utf8;use jianshu;drop table if exists article;create ta...原创 2019-08-18 21:56:08 · 242 阅读 · 0 评论