使用python scrapy爬虫框架 爬取科学网自然科学基金数据

本文介绍了如何利用Python的Scrapy爬虫框架,详细步骤解析了爬取科学网上关于自然科学基金的数据,主要涉及基金项目的名称、负责人、资助金额等相关信息。
摘要由CSDN通过智能技术生成

使用python scrapy爬虫框架 爬取科学网自然科学基金数据


fundspider.py文件

# -*- coding: utf-8 -*-

from scrapy.selector import Selector
from fundsort.items import FundItem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.http import Request
import re

class FundSpider(CrawlSpider):
    name = "fund"
    id = 0
    allowed_domains = ["fund.sciencenet.cn"]
    start_urls =["http://fund.sciencenet.cn/index.php/search/project?name=&person=&no=&company=%E5%8C%97%E4%BA%AC%E5%A4%96%E5%9B%BD%E8%AF%AD%E5%A4%A7%E5%AD%A6&subject=&money1=&money2=&startTime=2005&endTime=2015&subcategory=&redract_url=&submit.x=0&submit.y=0&page=1"
    ]#每换个大学换一次star_urls. url结尾一定是以“page=”结束,

    def parse_item(self, response):
        item = response.meta['item']
        sel = Selector(response)
        num=self.getid()
        num=str(num)
        item['id']=num
        item['school'] = sel.xpath('//tbody/tr[2]/td[@colspan="2"]/text()').extract()
        item['subcategory']=sel.xpath('//table[@class="tb no_print"]//tbody//tr[1]/td[@colspan="4"]/text()').extract()
        subcode=sel.xpath('//table[@class="tb no_print"]//tbody//tr[1]/td[@colspan="4"]/text()').extract()[0]
        #subcode=str(subcode)
        item['subcode']&
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值