scrapy
Test_C.
这个作者很懒,什么都没留下…
展开
-
Scrapy 后台运行
cd /home/spider/spider_admin/declare_spider/declare_spider/spiders && nohup scrapy crawl gjzscqj -a page=%s -a url=%s -a host=*** -a user=mostchh -a password=*** -a database=spider -a id_time=%s -s DOWNLOAD_DELAY=20 > /home/spider/spider_admin/.原创 2020-05-18 17:39:02 · 638 阅读 · 0 评论 -
Scrapy 获取结束时 [scrapy.statscollectors] 的请求状态
{'downloader/request_bytes': 14072, 'downloader/request_count': 41, 'downloader/request_method_count/GET': 41, 'downloader/response_bytes': 381688, 'downloader/response_count': 41, 'downloader/r...原创 2020-04-17 15:20:14 · 1698 阅读 · 1 评论 -
Linux 使用 crontab 定时执行 Scrapy
sh 文件[root@mostchh-04 spider]# which scrapy/soft/python3/bin/scrapy#!/bin/bashcd /home/spider/news_spider/news_spider/spiders && /soft/python3/bin/scrapy crawlallecho 111 >> ....原创 2019-11-18 10:53:57 · 164 阅读 · 0 评论 -
Python scrapy 下载图片
https://blog.csdn.net/weixin_42336574/article/details/80946587https://blog.csdn.net/weixin_42428357/article/details/100050648# -*- coding: utf-8 -*-import scrapyfrom urllib.parse import urljoi...原创 2019-11-07 10:37:45 · 210 阅读 · 0 评论 -
Python Scrapy 中 scrapy.Request 传参数
# -*- coding: utf-8 -*-# 中国产业竞争情报网# http://www.chinacir.com.cn/hyzx/import scrapyfrom urllib.parse import urljoinclass ZgcyjzqbwSpider(scrapy.Spider): name = 'zgcyjzqbw' allowed_doma...原创 2019-11-06 17:07:32 · 443 阅读 · 0 评论 -
Scrapy 运行多个爬虫spider文件
https://www.cnblogs.com/yunlongaimeng/p/11526466.html1. 在项目文件夹中新建一个commands文件夹2. 在command的文件夹中新建一个文件 crawlall.py3.在crawlall.py 中写一个command类,该类继承 scrapy.commandsfrom scrapy.commands import Scr...原创 2019-11-05 09:33:50 · 780 阅读 · 0 评论 -
Python bs4 解析不对, 更新bs4 库 或 单独调用 Scrapy 的 css 选择器
更新bs4库至4.7.0以上,然后就可以使用了。(推荐)pip install --upgrade beautifulsoup4比如这个规则,bs4 解析不出来, 会报错 需要将nth-child改为 nth-of-type,虽然这样不会报错了,但是解析的位置不对div.show-status > span:nth-child(3)解决方法:调用Scrapy ...原创 2019-03-11 17:16:43 · 932 阅读 · 0 评论 -
Python scrapy shell 加请求头
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36" https://www.lagou.com/jobs/5370402.html原创 2018-11-28 16:15:44 · 934 阅读 · 0 评论 -
Python scrapy 判断状态码自动退出
爬虫文件# -*- coding: utf-8 -*-import scrapyclass TestSpider(scrapy.Spider): name = 'test' # allowed_domains = ['www.baidu.com'] start_urls = ['https://www.csdn.net/1'] # 本地爬虫配置文件 ...原创 2018-11-30 22:12:29 · 3048 阅读 · 0 评论 -
Python Scrapy-Redis 拉钩分布式爬虫
settings文件添加以下内容# ---------------------redis 配置--------------------------# url指纹过滤器DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 调度器SCHEDULER = "scrapy_redis.scheduler.Scheduler"...原创 2018-12-02 18:53:44 · 1056 阅读 · 0 评论 -
Python scrapy 添加随机请求头 fake_useragent模块
爬虫文件拉钩页面没请求头访问不了# -*- coding: utf-8 -*-import scrapyclass TestSpider(scrapy.Spider): name = 'test' # allowed_domains = ['www.baidu.com'] start_urls = ['https://www.lagou.com/jobs/...原创 2018-11-30 14:07:32 · 1690 阅读 · 0 评论 -
Python scrapy 代理使用两种方法 和 认证代理
第一种 自定义middleware文件 爬虫文件# -*- coding: utf-8 -*-import scrapyclass TestSpider(scrapy.Spider): name = 'test' # allowed_domains = ['www.baidu.com'] start_urls = ['https://www.baidu.co...原创 2018-11-30 16:38:22 · 2316 阅读 · 3 评论 -
Python CrawlSpider 爬取 拉钩
创建 CrawlSpiderscrapy genspider -t crawl lagou www.lagou.com爬虫文件# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rul...原创 2018-11-29 15:42:30 · 527 阅读 · 0 评论 -
Python scrapy 提取不到字段设置默认值extract_first()
使用 extract_first()>>> test = response.css(".lllaaa a").extract_first("没有")>>> test'没有'原创 2018-11-26 00:09:06 · 2511 阅读 · 0 评论 -
Python scrapy 中的css选择器提取 a 标签的 href值
response.css(".copyright-area a::attr(href)").extract()[0]原创 2018-11-26 00:03:36 · 8633 阅读 · 0 评论 -
Python scrapy 使用 爬取JOB伯乐在线
scrapy创建项目# 创建一个项目scrapy startproject 项目名称cd 进入项目目录# 生成一个爬虫文件scrapy genspider 爬虫名称 www.baidu.com# 运行一个爬虫scrapy crawl 爬虫名称scrapy.cfg :项目的配置文件items.py :项目的目标文件pipelines.py :项目的管道文件...原创 2018-11-27 01:24:24 · 390 阅读 · 0 评论