scrapy
山阴少年
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫(3)爬取中国高校前100名并写入MongoDB
爬取中国高校前100名并写入MongoDB原创 2017-11-28 13:06:13 · 611 阅读 · 0 评论 -
Scrapy爬虫(2)爬取新浪旅游图片
本次分享将展示如何利用Scrapy爬取网页中的图片。原创 2017-11-27 21:50:21 · 582 阅读 · 0 评论 -
Scrapy爬虫 (1)爬取菜鸟Git教程目录
一个极为简单的scrapy爬虫例子原创 2017-11-24 22:13:36 · 1185 阅读 · 1 评论 -
Scrapy爬虫(5)爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件。项目的具体创建就不再多讲,可以参考上一篇博客,我们只需要修改items.py文件,以及新建一个爬虫文件BookSpider.py. items.py文件的代码如下,用来储存每本书的排名,书名,作者,出版社,价格以...原创 2018-03-14 22:31:43 · 4841 阅读 · 0 评论 -
Scrapy爬虫(6)爬取银行理财产品并存入MongoDB(共12w+数据)
本次Scrapy爬虫的目标是爬取“融360”网站上所有银行理财产品的信息,并存入MongoDB中。网页的截图如下,全部数据共12多万条。 我们不再过多介绍Scrapy的创建和运行,只给出相关的代码。关于Scrapy的创建和运行,有兴趣的读者可以参考:Scrapy爬虫(4)爬取豆瓣电影Top250图片。 修改items.py,代码如下,用来储存每个理财产品的相关信息,如产...原创 2018-03-15 16:35:38 · 1317 阅读 · 0 评论 -
Scrapy爬虫(7)在Windows中安装及使用Scrapy
本次分享将介绍Scrapy在Windows系统中的安装以及使用,主要解决的问题有:在Windows中安装Scrapy模块在IDE(PyCharm)中使用ScrapyScrapy导出的csv文件乱码 首先介绍如何在Windows中安装Scrapy模块。 在https://www.lfd.uci.edu/~gohlke/pythonlibs/网站中下载适合自己Python版...原创 2018-03-15 20:39:49 · 1222 阅读 · 0 评论 -
Scrapy爬虫(8)scrapy-splash的入门
scrapy-splash的介绍 在前面的博客中,我们已经见识到了Scrapy的强大之处。但是,Scrapy也有其不足之处,即Scrapy没有JS engine, 因此它无法爬取JavaScript生成的动态网页,只能爬取静态网页,而在现代的网络世界中,大部分网页都会采用JavaScript来丰富网页的功能。所以,这无疑Scrapy的遗憾之处。 那么,我们还能愉快地使用Scrapy来爬...原创 2018-03-17 16:16:36 · 4106 阅读 · 2 评论 -
Scrapy爬虫(4)爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架——Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影Top250, 主要解决的问题有:如何利用ImagesPipeline来下载图片如何对下载后的图片重命名,这是因为Scrapy默认用Hash值来保存文件,这并不是我们想要的 首先我们要爬...原创 2018-03-14 13:59:47 · 6586 阅读 · 2 评论