scrapy错误记录:Missing scheme in request url: h

最新推荐文章于 2021-11-21 01:13:44 发布

ClearLove·

最新推荐文章于 2021-11-21 01:13:44 发布

阅读量1.3w

点赞数 5

分类专栏：编程 scrapy 爬虫 python 文章标签： python 爬虫 scrapy 编程

本文链接：https://blog.csdn.net/qq_38162763/article/details/81354521

版权

编程同时被 3 个专栏收录

14 篇文章 1 订阅

订阅专栏

python

11 篇文章 0 订阅

订阅专栏

scrapy

5 篇文章 0 订阅

订阅专栏

写scrapy爬虫框架时,运行出现错误:Missing scheme in request url: h

spider.py代码如下:

注意查看start_urls,里面存放爬虫框架开始时的链接,该链接必须以列表形式存放

不能像我一样以字符串形式存放

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Selector
from miao.items import MiaoItem
class MmiaoSpider(scrapy.Spider):
    name = 'mmiao'
    offset = 0
    allowed_domains = ["tencent.com"]
    url = 'http://hr.tencent.com/position.php?&start='
    start_urls = ('http://hr.tencent.com/position.php?&start=' + str(offset))
    addurl = 'https://hr.tencent.com/'
    def parse(self, response):
        for each in response.xpath("//tr[@class='even']|//tr[@class='odd']"):
            item = MiaoItem()
            item['positionname'] = each.xpath('./td[1]/a/text()').extract()[0]
            item['positionlink'] = self.addurl+each.xpath('./td[1]/a/@href').extract()[0]
            try:
                item['positiontype'] = each.xpath('./td[2]/text()').extract()[0]
            except:
                pass
            item['peoplenum']  = each.xpath('./td[3]/text()').extract()[0]
            item['worklocation'] = each.xpath("./td[4]/text()").extract()[0]
            # 发布时间
            item['publishtime'] = each.xpath("./td[5]/text()").extract()[0]
            yield item
        if self.offset<1680:
            self.offset+=10
        yield  scrapy.Request(self.url+str(self.offset),callback=self.parse)

修改代码如下

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Selector
from miao.items import MiaoItem
class MmiaoSpider(scrapy.Spider):
    name = 'mmiao'
    offset = 0
    allowed_domains = ["tencent.com"]
    url = 'http://hr.tencent.com/position.php?&start='
    start_urls = ['http://hr.tencent.com/position.php?&start=' + str(offset)]
    addurl = 'https://hr.tencent.com/'
    def parse(self, response):
        for each in response.xpath("//tr[@class='even']|//tr[@class='odd']"):
            item = MiaoItem()
            item['positionname'] = each.xpath('./td[1]/a/text()').extract()[0]
            item['positionlink'] = self.addurl+each.xpath('./td[1]/a/@href').extract()[0]
            try:
                item['positiontype'] = each.xpath('./td[2]/text()').extract()[0]
            except:
                pass
            item['peoplenum']  = each.xpath('./td[3]/text()').extract()[0]
            item['worklocation'] = each.xpath("./td[4]/text()").extract()[0]
            # 发布时间
            item['publishtime'] = each.xpath("./td[5]/text()").extract()[0]
            yield item
        if self.offset<1680:
            self.offset+=10
        yield  scrapy.Request(self.url+str(self.offset),callback=self.parse)

大功告成 OK

本次博客记录到此结束

ClearLove·

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
7
评论
scrapy错误记录:Missing scheme in request url: h

写scrapy爬虫框架时,运行出现错误:Missing scheme in request url: hspider.py代码如下:注意查看start_urls,里面存放爬虫框架开始时的链接,该链接必须以列表形式存放不能像我一样以字符串形式存放# -*- coding: utf-8 -*-import scrapyfrom scrapy import Selectorfro...
复制链接

扫一扫

专栏目录