scrapy的name变量_python-将file_name参数传递给管道以在scrapy中...

我需要从命令行中获取一个自变量(-a FILE_NAME =“ stuff”),并将其应用于在pipeline.py文件中由我的CSVWriterPipeLine创建的文件. (我之所以使用pipeline.py是因为内置的导出器正在重复数据并在输出文件中重复标题.相同的代码,但是在管道中进行写入修复了它.)

我尝试从scrapy.utils.project导入get_project_settings中看到

但是我无法从命令行更改文件名.

我还尝试实现页面上的@avaleske解决方案,因为它专门解决了这个问题,但是我不知道他谈论的代码在我的scrapy文件夹中的位置.

救命?

settings.py:

BOT_NAME = 'internal_links'

SPIDER_MODULES = ['internal_links.spiders']

NEWSPIDER_MODULE = 'internal_links.spiders'

CLOSESPIDER_PAGECOUNT = 100

ITEM_PIPELINES = ['internal_links.pipelines.CsvWriterPipeline']

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'internal_links (+http://www.mycompany.com)'

FILE_NAME = "mytestfilename"

pipelines.py:

import csv

class CsvWriterPipeline(object):

def __init__(self, file_name):

header = ["URL"]

self.file_name = file_name

self.csvwriter = csv.writer(open(self.file_name, 'wb'))

self.csvwriter.writerow(header)

def process_item(self, item, internallinkspider):

# build your row to export, then export the row

row = [item['url']]

self.csvwriter.writerow(row)

return item

spider.py:

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

from scrapy.contrib.spiders import CrawlSpider, Rule

from internal_links.items import MyItem

class MySpider(CrawlSpider):

name = 'internallinkspider'

allowed_domains = ['angieslist.com']

start_urls = ['http://www.angieslist.com']

rules = (Rule(SgmlLinkExtractor(), callback='parse_url', follow=True), )

def parse_url(self, response):

item = MyItem()

item['url'] = response.url

return item

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
项目:使用 JavaScript 编写的杀死幽灵游戏(附源代码) 杀死鬼魂游戏是使用 Vanilla JavaScript、CSS 和 HTML 画布开发的简单项目。这款游戏很有趣。玩家必须触摸/杀死游荡的鬼魂才能得分。您必须将鼠标悬停在鬼魂上 - 尽量得分。鬼魂在眨眼间不断从一个地方移动到另一个地方。您必须在 1 分钟内尽可能多地杀死鬼魂。 游戏制作 这个游戏项目只是用 HTML 画布、CSS 和 JavaScript 编写的。说到这个游戏的特点,用户必须触摸/杀死游荡的幽灵才能得分。游戏会根据你杀死的幽灵数量来记录你的总分。你必须将鼠标悬停在幽灵上——尽量得分。你必须在 1 分钟内尽可能多地杀死幽灵。游戏还会显示最高排名分数,如果你成功击败它,该分数会在游戏结束屏幕上更新。 该游戏包含大量的 javascript 以确保游戏正常运行。 如何运行该项目? 要运行此游戏,您不需要任何类型的本地服务器,但需要浏览器。我们建议您使用现代浏览器,如 Google Chrome 和 Mozilla Firefox。要玩游戏,首先,单击 index.html 文件在浏览器打开游戏。 演示: 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值