Python Scrapy学习之pipelines不能保存数据到文件问题

  今天,学习了scrapy框架pipelines处理数据部分。pipelines可以将由爬虫文件传递来的数据保存到文件中。例如,将数据保存到.txt文件中。
  首先,需要先设置pipelines.py文件。

# -*- coding: utf-8 -*-

import codecs
class MypjtPipeline(object):
    def __init__(self):
        self.file = codecs.open("D:/Kangbb/data1.txt", "w", encoding="utf-8")
    def process_item(self, item, spider):
        l = str(item['title'])+'\n'
        self.file.write(l)
        return item
    def close_spider(self):
        self.file.close()

  process_item()函数必须定义,它是真正处理数据的函数。其他函数可选择实现。
  接着,设置setting.py。将下列部分的注释去掉,根据自己定义的函数来填补内容:

#ITEM_PIPELINES = {
#    'mypjt.pipelines.MypjtPipeline': 300,
#}
ITEM_PIPELINES = {
    'mypjt.pipelines.MypjtPipeline': 300,
}

 
  其中,mypjt.pipelines.MypjtPipeline命名规范为项目名.piplines配置文件名.piplines文件里的类名。300代表优先级,范围为0~1000,数字越小,越先执行。可以同时定义多个处理数据的类,使用数字来确定优先级。

  但是,当我完成这些以后,发现依旧不能保存数据到文件。经过多方面确定和查阅文档,才发现原来是爬虫文件(spiders文件夹下的文件)中的parse()函数没有return语句所致。
 
初始版本:

# -*- coding: utf-8 -*-
import scrapy
from mypjt.items import MypjtItem

class MyfileSpider(scrapy.Spider):
    name = 'myfile'
    allowed_domains = ['www.jd.com']
    start_urls = ['https://channel.jd.com/eleNews.html']

    def parse(self, response):
        item = MypjtItem()
        item['title'] = response.xpath("/html/head/title/text()")
        print(item['title'])

修改后版本:

# -*- coding: utf-8 -*-
import scrapy
from mypjt.items import MypjtItem

class MyfileSpider(scrapy.Spider):
    name = 'myfile'
    allowed_domains = ['www.jd.com']
    start_urls = ['https://channel.jd.com/eleNews.html']

    def parse(self, response):
        item = MypjtItem()
        item['title'] = response.xpath("/html/head/title/text()")
        print(item['title'])
        return item

  这样就解决了所有问题。
  总结一下,要使用scrapy保存数据到文件,需要注意以下三点:

   1. pipelines文件正确配置
   2. 配置settings.py文件
   3. 爬虫文件parse()函数一定要由return语句

  • 11
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 12
    评论
Scrapy提供了一个方便的Pipeline来将数据存储到MySQL数据库中。要将数据存储到MySQL中,您需要安装pymysql库。可以使用以下命令来安装: ``` pip install pymysql ``` 然后,在项目的settings.py文件中添加以下代码: ```python ITEM_PIPELINES = { 'myproject.pipelines.MySQLPipeline': 300, } MYSQL_HOST = 'localhost' # MySQL服务器地址 MYSQL_DBNAME = 'mydatabase' # MySQL数据库名 MYSQL_USER = 'myuser' # MySQL用户名 MYSQL_PASSWD = 'mypassword' # MySQL密码 ``` 接下来,您需要创建名为MySQLPipeline.py的文件,并在其中编写将数据存储到MySQL的代码: ```python import pymysql class MySQLPipeline(object): def __init__(self, host, dbname, user, password): self.host = host self.dbname = dbname self.user = user self.password = password @classmethod def from_crawler(cls, crawler): return cls( host=crawler.settings.get('MYSQL_HOST'), dbname=crawler.settings.get('MYSQL_DBNAME'), user=crawler.settings.get('MYSQL_USER'), password=crawler.settings.get('MYSQL_PASSWD') ) def open_spider(self, spider): self.conn = pymysql.connect(host=self.host, user=self.user, password=self.password, db=self.dbname) self.cursor = self.conn.cursor() def close_spider(self, spider): self.conn.commit() self.conn.close() def process_item(self, item, spider): sql = "INSERT INTO mytable (column1, column2) VALUES (%s, %s)" self.cursor.execute(sql, (item['field1'], item['field2'])) return item ``` 在上面的代码中,我们使用了pymysql库来连接到MySQL数据库。在open_spider()方法中我们打开了数据库连接,并使用process_item()方法将数据插入到MySQL中。在close_spider()方法中,我们提交了所有的更改并关闭了数据库连接。 最后,确保您的Spider中的Item具有相应的字段名称,以便可以在process_item()方法中访问它们。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kiloveyousmile

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值