Scrapy抓取数据存入数据库(示例一)


一、示例一:Scrapy抓取豆瓣编程分类第一页的图书名称和链接并存入数据库


1. 要抓取的文件在items.py中定义,我们要抓取的是图书的名称和链接

2. spiders下的文件
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from second.items import bbs
 
class bbsSpider(BaseSpider):
      name = "boat"
      allow_domains = ["http://book.douban.com/tag/编程?type=S"]
      start_urls = ["http://book.douban.com/tag/编程?type=S"]
      def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
item = bbs()
item['title'] = hxs.select('//ul/li[position()>0]/div[2]/h2/a/@title').extract()
item['link'] = hxs.select('//ul/li[position()>0]/div[2]/h2/a/@href').extract() 
items.append(item)
return items


3. pipelines文件,关于scrapy保存到数据库请看twisted的资料

# -*- coding: utf-8 -*-
# Define your item pipelines here
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/topics/item-pipeline.html

from scrapy import log
from twisted.enterprise import adbapi
from scrapy.http import Request  
from scrapy.exceptions import DropItem  
from scrapy.contrib.pipeline.images import ImagesPipeline  
import time  
import MySQLdb  
import MySQLdb.cursors
import socket
import select
import sys
import os
import errno
#连接数据库
class MySQLStorePipeline(object):
      def __init__(self):
self.dbpool = adbapi.ConnectionPool('MySQLdb',  
                        db = 'test',  
                        user = 'root',  
                        passwd = 'root',  
                        cursorclass = MySQLdb.cursors.DictCursor,  
                        charset = 'utf8',  
                        use_unicode = False  
            )  
      #pipeline默认调用
      def process_item(self, item, spider):
query = self.dbpool.runInteraction(self._conditional_insert, item)  
return item
      #将每行写入数据库中
      def _conditional_insert(self, tx, item):  
if item.get('title'):
for i in range(len(item['title'])):
tx.execute('insert into book values (%s, %s)', (item['title'][i], item['link'][i])) 

4. 在setting.py中添加pipeline:
  ITEM_PIPELINES = ['second.pipelines.MySQLStorePipeline']

5. 需要提前在数据库中建立test数据库和book表。

      新建数据库:create database 库名,为了让mysql正常显示中文,在建立数据库的时候使用如下语句:
      CREATE DATABASE test DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;

      新建表:create table book ( title char(15) not null, link varchar(50) COLLATE utf8_general_ci DEFAULT NULL);

6. 爬虫的结果如下:
{'link': [u'http://book.douban.com/subject/1885170/',
              u'http://book.douban.com/subject/1477390/',
              ……
              u'http://book.douban.com/subject/3288908/'],
           'title': [u'\u7b97\u6cd5\u5bfc\u8bba',
               ……
               u'\u96c6\u4f53\u667a\u6167\u7f16\u7a0b']}

由上面的爬取结果可以看出,爬取结果是字典嵌套一个列表。所以在写数据库的时候,for循环中item['title']表示字典的每个键对应的值,len(item['title']) 表示值的列表的长度。注意:如果写数据库不正确,数据库为空。
for i in range(len(item['title'])):
tx.execute('insert into book values (%s, %s)', (item['title'][i], item['link'][i])) 

7. 截图
爬虫抓取截图:

Scrapy抓取数据存入数据库(示例一)


爬取豆瓣编程第一页的截图:

Scrapy抓取数据存入数据库(示例一)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的纺织品企业财务管理系统,源码+数据库+毕业论文+视频演示 在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对纺织品企业财务信息管理的提升,也为了对纺织品企业财务信息进行更好的维护,纺织品企业财务管理系统的出现就变得水到渠成不可缺少。通过对纺织品企业财务管理系统的开发,不仅仅可以学以致用,让学到的知识变成成果出现,也强化了知识记忆,扩大了知识储备,是提升自我的一种很好的方法。通过具体的开发,对整个软件开发的过程熟练掌握,不论是前期的设计,还是后续的编码测试,都有了很深刻的认知。 纺织品企业财务管理系统通过MySQL数据库与Spring Boot框架进行开发,纺织品企业财务管理系统能够实现对财务人员,员工,收费信息,支出信息,薪资信息,留言信息,报销信息等信息的管理。 通过纺织品企业财务管理系统对相关信息的处理,让信息处理变的更加的系统,更加的规范,这是一个必然的结果。已经处理好的信息,不管是用来查找,还是分析,在效率上都会成倍的提高,让计算机变得更加符合生产需要,变成人们不可缺少的一种信息处理工具,实现了绿色办公,节省社会资源,为环境保护也做了力所能及的贡献。 关键字:纺织品企业财务管理系统,薪资信息,报销信息;SpringBoot
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值