自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (2)
  • 收藏
  • 关注

原创 scrapy-redis分布式爬虫案例(房天下)

运行效果动图:简述:本案例中有一台Linux系统运行Redis服务器,两台Windows系统跑分布式爬虫。爬虫从Redis队列中得到要爬取的URL,同时redis负责队列中URL的去重以及爬虫因某些原因暂停或者终止时,下次开启爬虫自动继续上次未完成的URL继续爬取,不会重头开始爬,当爬虫爬空Redis中的URL时,就会处于等待状态,次数可以设置等待一段时间,如果队列中还是没有新增要爬取的U...

2019-09-29 10:19:33 681

原创 如何将scrapy项目转换成scrapy-redis分布式爬虫

将爬虫继承的类从 scrapy.Spider 变成 scrapy_redis.spiders.RedisSpider(或者先import (from scrapy_redis.spiders import RedisSpider));或者是从 scrapy.CrawlSpider 变成 scrapy_redis.spiders.RedisCrawlSpider。 将爬虫中的start_url...

2019-09-23 10:29:30 522 1

原创 Ubuntu安装Scrapy

首先需要安装依赖包如下:sudo apt-get install python3-dev build-essential python3-piplibxml2-devlibxslt1-devzlib1g-dev libffi-dev libssl-dev 安装scrapy pip install scrapy...

2019-09-20 14:32:58 881

原创 Pycharm中为python程序添加依赖包

导出该python程序所依赖的第三方包的列表:pip freeze > requirements.txt 将requirements.txt拷贝到需要运行该python程序的机器上,执行pip install -r requirements.txt 即可安装程序所依赖的包。...

2019-09-20 11:11:22 1184

原创 Python爬虫常见报错及解决办法

报错:AttributeError: 'NoneType' object has no attribute 'strip'检查是否是单词拼写错误。 检查是否是str类型 检查返回结果是否有空值,使用strip()前可以先判断是否为空,如下: name = li.xpath(".//div[@class='nlcd_name']/a/text()").get()if name is n...

2019-09-17 17:13:43 3631 5

原创 redis相关操作

字符串操作设置和获取字符串 set username name / get username 设置和查看过期时间 set age 20 EX 60(expire age 60单独设置过期时间) / ttl age 一旦过期,会被自动删除。 查看所有的keys: keys *列表操作 (有序,重复)给列表添加值: 左添加: lpush websites bai...

2019-09-12 14:58:46 99

原创 redis安装

下载地址:https://github.com/microsoftarchive/redis/releases 安装完成后,切换到安装目录: 执行redis-server.exe redis.windows.conf 启动server端。如果报错:Creating Server TCP listening socket 127.0.0.1:6379: bind: No error。则分...

2019-09-11 17:56:17 113

lagouSpider.py

python,通过使用selenium Chromedriver工具爬取拉勾直聘网。

2019-08-13

bossSpider.py

python,通过使用selenium Chromedriver工具,爬取BOSS直聘网,python招聘信息

2019-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除