Scrapy学习-中国大学MOOC-Python网络爬虫与信息提取-北京理工大学嵩天教授


前言

本博客会先介绍Scrapy的基础知识,再讲解1个相关实战项目。非常基础,具体视频以及课件,在中国大学MOOC里可以找到,由北京理工大学,嵩天教授主讲:Python网络爬虫与信息提取


一、Scrapy相关知识

主要介绍Scrapy的框架,以及如何使用
在这里插入图片描述

1:Scrapy的安装:

Scrapy是一个快速功能强大的网络爬虫框架。
如果出现错误,大部分是需要安装twisted库,方法如下
在这里插入图片描述

2:Scrapy框架简介(三个数据流):

1)数据流一:
在这里插入图片描述

2)数据流二:

在这里插入图片描述

3)数据流三:

在这里插入图片描述
4)Scrapy框架需要用户写的地方:

在这里插入图片描述

3:Scrapy框架的使用

1)以demo网页举例:
在这里插入图片描述

2)建立爬虫工程:

在这里插入图片描述
3)在工程中产生一个Scrapy爬虫:
在这里插入图片描述
4)配置产生的爬虫:

在这里插入图片描述

5)运行爬虫,获取网页:

在这里插入图片描述
6)总结使用Scrapy的框架方法:

在这里插入图片描述

二、股票数据Scrapy爬虫项目实战

1.网页介绍与预期想要的结果

1)股票网址链接,从这里获得6位数字代码

在这里插入图片描述
2)再从这里获得股票的具体相关信息
在这里插入图片描述

3)输入url链接后,输出如下图:

在这里插入图片描述

2.爬虫思路分析以及标签可行性分析

1)总体思路:
在这里插入图片描述

2):标签分析

1> 先找到/gs/sh_600000.shtml,然后得到6位数字,

在这里插入图片描述

2> 找到相应的单股的信息标签:
先用xpath找到最近的script标签,再将各个值从列表里提取出来
在这里插入图片描述

3.程序步骤

在这里插入图片描述

4.代码展示

1)建立工程和Spider模板
在这里插入图片描述

2)编写Spider,代码如下

在这里插入图片描述


import scrapy
import re


class StocksSpider(scrapy.Spider):
    name = 'stocks'
    #allowed_domains = ['baidu.com']
    start_urls = ['http://quote.stockstar.com/stock/stock_index.htm']

    def parse(self, response):
        for href in response.css('a::attrs(href)').extract():
            try:
                stock = re.search(r'/gs/sh_\d{6}.shtml', href).group(0).split('_')[1].split('.')[0]
                print(stock)
                url = "http://quotes.money.163.com/" + '0' + stock + '.html'
                yield scrapy.Request(url, callback = self.parse_stock)
            except:
                continue


    def parse_stock(self, response):
        infoDict = {}
        script = response.xpath('//div[@class="relate_stock clearfix"]/script[1]').extract()
        info = script[0].strip().split(',')
        infoDict['股票名称'] = eval(re.search(r'name\: \'.*\'', info[0]).group(0).split(':')[1])
        infoDict['股票代码'] = eval(re.search(r'code\: \'\d{6}\'', info[1]).group(0).split(":")[1])
        infoDict['现价'] = eval(re.search(r'price\: \'.*\'', info[2]).group(0).split(":")[1])
        infoDict['涨跌幅'] = re.search(r'change\: \'.*%', info[3]).group(0).split("'")[1]
        infoDict['昨收'] = eval(re.search(r'yesteday\: \'.*\'', info[4]).group(0).split(":")[1])
        infoDict['今开'] = eval(re.search(r'today\: \'.*\'', info[5]).group(0).split(":")[1])
        infoDict['最高'] = eval(re.search(r'high\: \'.*\'', info[6]).group(0).split(":")[1])
        infoDict['最低'] = eval(re.search(r'low\: \'.*\'', info[7]).group(0).split(":")[1])
        yield infoDict

3)编写Pipelines,代码如下:
在这里插入图片描述

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item

class BaidustocksInfoPipeline(object):
    def open_spider(self, spider):
        self.f = open('BaiduStockInfos.txt', 'w')

    def close_spider(self, spider):
        self.f.close()

    def process_item(self, item , spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

4)配置ITEM_PIPELINES选项:

找到ITEM_PIPELINES 取消掉注释,并更改BaidustocksInfo

在这里插入图片描述

5)执行程序:

在这里插入图片描述

5.代码几个点需要注意的地方:

1)Stocks.py的编写,Xpath的用于需要注意下。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值