![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scrapy
haeasringnar
这个作者很懒,什么都没留下…
展开
-
Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
1、安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/谷歌解决 pip install scrapy 顺便装上iPython 这样方便操作scrapy shell pip install ipython 2、scrapy入门讲解 先附上...原创 2018-09-01 17:28:55 · 6608 阅读 · 0 评论 -
Scrapy 爬取快代理免费代理ip保存到文件、MySQL数据库以及MongoDB数据库
1、新建工程 scrapy startproject kuaidaili 2、新建爬虫文件 进入工程目录下 cd ./kuaidaili/kuaidaili 新建爬虫文件 scrapy genspider kuaidailispider "www.kuaidaili.com" 3、配置settings.py # -*- coding: utf-8 -*- # Scrapy settings...原创 2018-10-05 16:05:01 · 2256 阅读 · 0 评论 -
Scrapy-Redis 爬取快代理免费
前面写过使用scrapy爬取快代理的免费ip 接下来使用的是基于Redis的分布式scrapy爬取快代理免费ip 1、准备好Redis 如何安装和使用Redis这里就不做介绍了,没有安装的可以参考我之前的博客。 注意:如果要在不同的机器上使用,要开启Redis的远程访问 2、创建好虚拟环境并在虚拟环境中安装好scrapy 和 scrapy-redis pip install scrapy scra...原创 2018-10-21 12:07:57 · 1064 阅读 · 0 评论 -
基于djang、vue、scrapy-redis、高德地图的豆瓣租房租房信息爬取、存储、可视化综合项目
1、scrapy-redis部分 这里主要是用分布式爬虫爬取所有的豆瓣租房信息,然后去重、存数据库(MySQL)。使用分布式的好处是爬取快,可以分布在多台机器上爬取;然后redis可以结合django使用,做到在前台点击一下按钮就可以更新redis键值,从而使scrapy-redis继续爬取最新租房信息。具体代码见码云。 2、django部分 这里主要是处理数据的,将存好的数据有序的传递到vue前...原创 2018-10-31 22:03:40 · 1106 阅读 · 0 评论