python--爬虫
文章平均质量分 72
门前一头牛
这个作者很懒,什么都没留下…
展开
-
使用crawlspider实现页面的提取+案例
CrawlSpider是Scrapy提供的一个通用Spider。在Spider里,我们可以指定一些爬取规则来实现页面的提取,这些爬取规则由一个专门的数据结构Rule表示。Rule里包含提取和跟进页面的配置,Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果需要用哪个方法解析等。1.CrawlSpider的基本工作原理CrawlSpider的基本工作原理和BasicSpider雷同。不同点在于获取响应对象后,通过链接提取器LinkExtractor获取请求链接,如果提取原创 2021-06-04 21:20:32 · 493 阅读 · 4 评论 -
Scrapy + 案例
学了 scrapy却不会用???那我们就直接来一个案例来仔细讲解一下,步骤是怎么样的。这个例子是前不久一个学妹的作业。我拿来写写博客哈哈哈哈哈。对了 我用的Pycharm例子是爬取人邮教育区里面的书籍。老步骤一、创建爬虫项目打开终端书写 scrapy startproject book1spider要是创建文件之后,忘记了下一步 时不要慌,终端会给我们一个提示,按照提示来,接下来一步 切换刀爬虫项目的目录下,然后再创建一个爬虫文件。二、创建爬虫文件还是在终端输入scrapy gen原创 2021-06-04 17:55:10 · 538 阅读 · 1 评论 -
scrapy入门
为什么要用Scrapy ???有selenium还不够吗? 不够!我们知道无论是静态网页的爬取还是动态网页的爬取。大致思路都是 获取网页的html代码、解析、保存输出。在我们编写这些代码的时候虽然都是已经封装成函数了。但是难免有一些些懒惰的同学不想写(绝对不是我 ????)。所以我们使用scrapy就可以很好的解决这些问题了。让我们陶醉于解析的过程当中。减少我们的工作量,缓解我们的焦虑,拯救我们的头发哈哈哈哈。scrapy的基本使用方法一、创建爬虫项目在终端输入scrapy startproj原创 2021-06-01 20:06:47 · 364 阅读 · 2 评论 -
Scrapy安装(windows)
你以为只要学了selenium就可以了? scrapy简直神来之笔好吗!用一句y总的话:安装ScrapyScrapy是一个python爬虫的一个框架。使用框架写爬虫可以减少代码的编写,提升爬取的效率。由于pip安装会自动安装scrapy爬虫框架依赖的各种包,安装速度较慢,出错概率较大,建议增加-i参数,使用清华镜像安装。pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple在prompt中输入scrapy即可验证是否安装成功。原创 2021-06-01 16:26:23 · 159 阅读 · 0 评论 -
动态网页 —— 案例: 爬取qq邮箱
其实在前一张博客动态网页——selenium+案例 中已经简单的爬过一遍qq邮箱了。本次呢是在上一次的代码上再完善一下啊。其实我们很多习惯是养成了的,比如说我们很多人都是打开电脑后会立即登录自己的qq或者微信。反正我是这样???? 甚至很多都是设置了的自动登录。我没有!我怕忘记密码???? 。所以这次的爬取QQ邮箱,我们会考虑到,如果我们已经登录了qq。因为如果已经登录了,就不会自动跳转到输入账号和密码的界面,而是这个所以我们就来改动一下吧!通常出现已有账号登录的情况,我们是直接点击我们的头像原创 2021-05-19 16:50:35 · 10207 阅读 · 2 评论 -
动态网页 —— selenium+案例
在上一次博客动态网页——selenium基础中我们在最后有提到frame的窗口切换,但是并没有细讲,所以今天就是用selenium来爬取一个qq邮箱,详细讲解selenium库@中frame的运用。1、使用selenium总是出现定位错误?很多人在动态网页爬取的时候使用selenium库的时候会遇到这种错误,可是反复检查网页源代码,发现元素明明就在那里,用firebug也可以看到 ,但是就是不可以去定位它,这个时候我们就要考虑一下我们的窗口有没有切换了!因为webDriver只能在一个页面上对元原创 2021-05-18 20:16:27 · 942 阅读 · 1 评论 -
动态网页 -- selenium基础
对于一些简单的动态网页,可以使用我们之前提起过的逆向分析法之前写过动态网页的逆向分析法。但是有一些网站非常复杂,如天猫产品评论,使用逆向分析法很难找到请求的url地址。除此之外,有些网站对爬虫非常不友好,会对地址和数据进行加密,分析起来异常困难,如QQ邮箱、百度登录等。因此,这里介绍另一种方法,即使用浏览器渲染引擎。这个方法在爬取过程中会打开一个浏览器加载该网页,自动操作浏览器浏览各个网页。用一句简单而通俗的话说,就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页。我们可以用Python的Selen原创 2021-05-14 18:07:52 · 7748 阅读 · 18 评论 -
动态网页 —— 逆向分析法 + 案例
引入 : 本章主要讲解的是动态网页爬取的相关技术。动态网页的爬取呢,主要有逆向分析法和模拟法。我们今天主要介绍逆向分析法,后面会重点介绍模拟法中selenium库的使用。动态网页一、动态网页概述1.1 什么是动态网页动态网页是基本的html语法规范与Python、Java、C#等高级程序设计语言、数据库编程等多种技术的融合,以期实现对网站内容和风格的高效、动态和交互式的管理。因此,从这个意义上来讲,凡是结合了HTML以外的高级程序设计语言和数据库技术进行的网页编程技术生成的网页都是动态网页原创 2021-05-10 17:45:32 · 12152 阅读 · 16 评论 -
爬取豆瓣网新书传递信息,关系型数据库的储存
爬取豆瓣网新书传递信息,数据保存到数据库中。爬取信息包括书名、评分、作者、出版社、出版时间、图书介绍。豆瓣图书新书速递的网址为需要爬取的网页地址–点击一、实例首先我们要做的事情,是打开网页,用F12观察结构发现该该网页没有分页,只有左右两个div盒子,但是按照以前的爬取方法,我们只能爬取一个div,那么这次的解决方法是什么呢?是要分开爬取?还是有其他的解决方法,就接着往下看吧!这次解析网页是使用的xpath。1,得到网页 ——get_htmldef get_html(url,heade原创 2021-04-23 18:19:10 · 579 阅读 · 3 评论 -
动态网页的爬取
动态抓取在开始爬取动态网页之前吗,我们还需要了解一种更新的技术——AJAX(Asynchronous Javascript And XML,异步JavaScript和XML)。它的价值在于通过再后台与服务器进行少量数据交换就可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新。一方面减少了网页重复内容的下载,另一方面节省了流量,因此它得到了广泛的应用。如果使用AJAX加载的动态网页,怎么爬取里面动态加载的内容呢?有两种方法:(1)通过浏览器审查元素解析地址(2)通过原创 2021-02-13 13:28:02 · 333 阅读 · 1 评论 -
爬虫——requests(Requests爬虫实践:TOP250电影数据)
简单的爬取import requestsr=requests.get("http://www.baidu.com")r.status_coder.encoding="utf-8"r.textstatus_code : 响应状态码,若是200 则表示链接成功,返回的是4xx则表示是客户端错误,返回的是5XX则表示服务器错误补充说明:所以呢,普通 的网页爬取 就是这么个代码 ,但是要关键字提交或是图片的爬取,归属地的自动查询都是要在reuqests的使用基础上,在添加其他的代码,后面我们会原创 2021-02-12 21:39:05 · 260 阅读 · 2 评论