![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
文章平均质量分 82
良木66
过去无可挽回,未来可以改变。
展开
-
python爬虫自学宝典——总结
俗话说的好,山不转水转,山水相逢即有缘。现实中你我并不相识,但是并不妨碍你我神交。看了我的scrapy讲解,你甚至不需要明白网页架构,服务器工作原理,scrapy框架的架构,就已经会写一些简单的虫子爬取数据了。我的目的也是让看的人懂怎么用,而不是明白太多的为什么,尽管为什么很重要,但是我也不好说,因为牵扯的东西太多了,岂是我一个小小的大学生能够解释清楚的。其实我做这么多,写这么多,就是想说一句,...原创 2020-03-29 15:50:21 · 882 阅读 · 0 评论 -
python爬虫自学宝典——反爬虫手段
前文回顾亲爱的各位看官们,看到这篇文章的时候,我们的爬虫之旅马上就要告一段落了。如果你支持我的博客,请点赞关注并分享。如果你觉得在下写的好,有钱的捧个钱场,没钱的捧个人场。我的博客都是公开的,也就是说,不要钱随便看的。当然如果阁下略微施舍点,在下也感激不尽。好了,闲言少叙,书归正文。爬虫呢?本质上说来其实就是模仿用户,到浏览器上抓取信息的一种手段。其实每个网站或多或少的有放爬虫意识,只是强不...原创 2020-03-28 21:32:38 · 795 阅读 · 0 评论 -
python爬虫自学宝典——如何爬取高清图片
前文回顾获取高清图片的任务交给爬虫也是一个不错的选择,现在很多图片网站的图片,大部分都是用爬虫进行爬取的。原因很简单,与其一张一张入库,不如直接利用爬虫爬取入库,效率简直是天差地别。本节呢,讲述如何到专门的图片发布网址上爬取高清图片并且下载下来。登录以下网址:https://unsplash.com进去之后,可见这是一个专门为图片发布提供的网址,其主页结构如下:如果你要浏览这个网页的...原创 2020-03-28 15:43:03 · 3069 阅读 · 0 评论 -
爬虫自学宝典——使用pygal可视化处理
前文回顾准备条件:使用pygal模块,应该先装pygal包,最简单的方法就是pip了。win+R——>cmd打开dos窗口,输入:pip install pygal等待数据连接后,模块加载成功后,自然会出现successfully字符的。使用爬虫爬取数据后,前文我们已经介绍了如何将数据信息写入文件和存入数据库,但是这两者都是建立在干巴巴的数据上的操作;那么如何直观的展示这些...原创 2020-03-27 21:16:24 · 794 阅读 · 0 评论 -
python——json介绍和json支持
json介绍json即JavaScript object notation,他是由ECMAScript(欧洲计算机协会制定的js规范)的一个自己,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得json成为理想的交换语言。易于人阅读和编写,同时也易于集器解析和生成,并有效的提升网络传输效率。最早的时候,json是用来JavaScript 语言的数据交换格式,后来才慢慢...原创 2020-03-25 12:48:18 · 980 阅读 · 1 评论 -
python爬虫自学宝典——将爬取的数据写入MySQL数据库
前文回顾上一节介绍了怎么将信息写入json中,这一节讲怎么将爬取的信息写入MySQL数据库中。写入数据库中,其实只需要修改pipeline.py文件即可,凡是输出,都只需要修改pipeline文件即可。打开pipeline文件,咱们上一节写入的内容如下:# -*- coding: utf-8 -*-# Define your item pipelines here## Don't f...原创 2020-03-26 21:08:42 · 4739 阅读 · 0 评论 -
python爬虫自学宝典——使用json导出信息
容在下告假,有事在身,抱歉。原创 2020-03-23 18:01:14 · 822 阅读 · 0 评论 -
python爬虫自学宝典——引言
在下本身才疏学浅,也谈不上多么多么牛逼,就是想做一些自己喜欢的事情。比如学习,看书,旅游等等。python爬虫自学宝典就是给自己做的手稿,看的人若是能得到启发,那是在下之幸;若得不到,那是在下的手笔,才学还没有到一定高度。此文章,仅仅供阁位消遣,本人也是一个大学生,无非就是喜欢学点新奇的东西而已。若是有不对的地方,还望各位大佬一一斧正。Scrapy简介数据从何而来?又去往何处?很多和我一样的...原创 2020-03-19 11:37:01 · 940 阅读 · 0 评论 -
python爬虫自学宝典——安装Scrapy
安装Scrapy最简单的方法就是pip了,我用的是python3.8,所以是pip3。打开dos窗口,输入如下命令段:pip3 install scrapy注:如果没有pip命令,先检查你装python了没有,在命令行窗口输入python字符,查看python版本信息等。如果有python,用exit()退出python命令窗口,进入dos命令窗口。在dos命令窗口中输入python -m...原创 2020-03-19 12:37:36 · 1579 阅读 · 0 评论 -
python爬虫自学宝典——如何爬取下一页信息
前文回顾,点击此处。爬虫爬取下一页信息很简答,无非就是获取下一页的连接url而已。首先,在提取完所有的response信息后,spider可以使用xpath找到页面中代表“下一页”的链接,然后使用request发送请求即可。首先,在浏览器中打开我的播客主页HTML代码中的下一页链接信息(在浏览器中,按F12),如下图:由上图只,下一翻页的xpath为‘//a[@class=“show_m...原创 2020-03-23 17:40:58 · 10708 阅读 · 2 评论 -
python爬虫自学宝典——运行spider
经过前面的讲解,我们已经写了一个小程序,用来爬取我的博客主页的博客信息。但是我们还没有将这个程序运行,什么意思呢?就是光说不练,假把式;光练不说,傻把式。运行虫子,很简单。首先,用dos定位到你的项目目录中,然后在命令行中输入:scrapy crawl demo_spiderdemo_spider是我的虫子名,正确的命令格式——scrapy crawl spider_name是运行虫子的...原创 2020-03-23 16:45:36 · 1947 阅读 · 0 评论 -
python爬虫自学宝典——开发步骤
通过前面的解说,已经知道了如何到网络上爬取自己想要的信息;现在,我们只需要将这些测试代码再spiders中实现即可实现真正的爬虫。一、定义items类。此步为开启爬虫的首要任务,该类仅仅用于定义项目需要爬取的几个属性(值),比如爬取博客名称,博客类型, 博客介绍信息等。访问我的博客界面,如下:本教程爬取我的各个博客的名称,阅读量,以及创建时间。打开自己创的项目目录,进入item.py文...原创 2020-03-23 16:24:02 · 1025 阅读 · 0 评论 -
python爬虫自学宝典——使用shell调试工具
本章先介绍如何使用shell调试工具,以方便之后的学习工作。在计算机科学中,Shell俗称壳(用来区别于核),是指“为使用者提供操作界面”的软件(命令解析器)。它类似于DOS下的command.com和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序。本教程示例将会从我的博客主页,爬取我的博客信息。打开我的播客主页如下:查看我的博客主页的源代码,如下:下面将会使用scrap...原创 2020-03-20 16:58:23 · 935 阅读 · 0 评论 -
scrapy——request and response
引言有request才有response,即有请求,服务器才能做出响应。scrapy中,request与response的工作原理为,爬虫生成requset对象,request将请求参数发送给服务器,服务器根据请求参数做出相应的响应(即生成response对象)。response根据request的请求,将响应的数据包发送给爬虫。requestrequest有爬虫生成,表示一个HTTP请求...原创 2020-03-20 16:54:26 · 749 阅读 · 0 评论