scrept
步步为营fs
这个作者很懒,什么都没留下…
展开
-
Scrapy简明教程(一)——简介与安装
1. 认识 Scrapy 框架: 中文文档: http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html 英文文档: https://doc.scrapy.org/en/latest/index.html Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列...转载 2018-10-26 16:54:51 · 179 阅读 · 0 评论 -
Scrapy简明教程(二)——开启Scrapy爬虫项目之旅
1. 启动项目: 安装好 Scrapy 以后, 我们可以运行 startproject 命令生成该项目的默认结构。具体步骤为: 打开终端进入想要存储 Scrapy 项目的目录,然后运行 scrapy startproject <project name>。这里我们用 FirstProject作为项目名:scrapy startproject FirstProje...转载 2018-10-26 16:56:13 · 188 阅读 · 0 评论 -
Scrapy简明教程(三)——爬取CSDN博文并写入文件
本篇博文将介绍 Scrapy 爬取 CSDN 博文详情页并写入文件,这里以 http://blog.csdn.net/oscer2016/article/details/78007472 这篇博文为例:1. 先执行以下几个命令:scrapy startproject csdnblogcd csdnblog/scrapy genspider -t basic spid...转载 2018-10-26 16:57:03 · 200 阅读 · 0 评论 -
Scrapy简明教程(四)——爬取CSDN博客专家所有博文并存入MongoDB
首先,我们来看一下CSDN博客专家的链接: http://blog.csdn.net/experts.html上图为 CSDN 所有博客专家页面,点击下一页后发现每次 url 都不会改变,但是已经翻页了,检查网页元素如下图: 我们发现可以通过 value 值来构造 url 实现翻页,&page=1代表第一页,先来看一下构造的 CSDN 博客专家首页:h...转载 2018-10-26 16:58:15 · 179 阅读 · 0 评论 -
Python爬取淘宝商品详情页数据
在讲爬取淘宝详情页数据之前,先来介绍一款 Chrome 插件:Toggle JavaScript (它可以选择让网页是否显示 js 动态加载的内容),如下图所示:当这个插件处于关闭状态时,待爬取的页面显示的数据如下:当这个插件处于打开状态时,待爬取的页面显示的数据如下: 可以看到,页面上很多数据都不显示了,比如商品价格变成了划线价格,而且累计评论也变成了0...转载 2018-10-26 17:00:12 · 5833 阅读 · 1 评论 -
Scrapy简明教程(五)——命令行传参爬取淘宝商品数据
首先我们先来看一下淘宝搜索商品的页面,这里以糖炒板栗为例: 可以看到搜索到了很多糖炒板栗,显示有100页,但真正搜索到的商品超过了100页,给用户只显示前100页,后面编写的爬虫只爬取前50页,url构造这里就不讲了,之前的博客已经讲过了,需要更多可以自己更改页数,然后我们检查网页元素,找到商品链接并复制,然后在网页源代码里查找,结果如下: 发现并没有找到,说明...转载 2018-10-26 17:01:57 · 609 阅读 · 0 评论