Scrapy
haeasringnar
这个作者很懒,什么都没留下…
展开
-
Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
1、安装scrapy建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/谷歌解决pip install scrapy顺便装上iPython 这样方便操作scrapy shellpip install ipython2、scrapy入门讲解先附上...原创 2018-09-01 17:28:55 · 6624 阅读 · 0 评论 -
Scrapy 爬取快代理免费代理ip保存到文件、MySQL数据库以及MongoDB数据库
1、新建工程scrapy startproject kuaidaili2、新建爬虫文件进入工程目录下cd ./kuaidaili/kuaidaili新建爬虫文件scrapy genspider kuaidailispider "www.kuaidaili.com"3、配置settings.py# -*- coding: utf-8 -*-# Scrapy settings...原创 2018-10-05 16:05:01 · 2276 阅读 · 0 评论 -
Scrapy-Redis 爬取快代理免费
前面写过使用scrapy爬取快代理的免费ip接下来使用的是基于Redis的分布式scrapy爬取快代理免费ip1、准备好Redis如何安装和使用Redis这里就不做介绍了,没有安装的可以参考我之前的博客。注意:如果要在不同的机器上使用,要开启Redis的远程访问2、创建好虚拟环境并在虚拟环境中安装好scrapy 和 scrapy-redispip install scrapy scra...原创 2018-10-21 12:07:57 · 1078 阅读 · 0 评论 -
基于djang、vue、scrapy-redis、高德地图的豆瓣租房租房信息爬取、存储、可视化综合项目
1、scrapy-redis部分这里主要是用分布式爬虫爬取所有的豆瓣租房信息,然后去重、存数据库(MySQL)。使用分布式的好处是爬取快,可以分布在多台机器上爬取;然后redis可以结合django使用,做到在前台点击一下按钮就可以更新redis键值,从而使scrapy-redis继续爬取最新租房信息。具体代码见码云。2、django部分这里主要是处理数据的,将存好的数据有序的传递到vue前...原创 2018-10-31 22:03:40 · 1113 阅读 · 0 评论