Scrapy学习-中国大学MOOC-Python网络爬虫与信息提取-北京理工大学嵩天教授

最新推荐文章于 2023-06-24 11:27:57 发布

LLM1602

最新推荐文章于 2023-06-24 11:27:57 发布

阅读量733

点赞数 2

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/LLM1602/article/details/113664757

版权

python爬虫专栏收录该内容

4 篇文章 1 订阅

订阅专栏

本文介绍了Scrapy的安装、框架结构及其使用方法，详细讲解了通过Scrapy实现股票数据爬取的步骤。首先，阐述了Scrapy的三个数据流，接着通过一个实际项目展示了如何抓取股票网站上的信息，包括股票代码、名称、价格等关键数据。最后，给出了爬虫代码及注意事项，并提及了Scrapy项目的配置与运行。

摘要由CSDN通过智能技术生成

前言

本博客会先介绍Scrapy的基础知识，再讲解1个相关实战项目。非常基础，具体视频以及课件，在中国大学MOOC里可以找到，由北京理工大学，嵩天教授主讲：Python网络爬虫与信息提取

一、Scrapy相关知识

主要介绍Scrapy的框架，以及如何使用
在这里插入图片描述

1：Scrapy的安装：

Scrapy是一个快速功能强大的网络爬虫框架。
如果出现错误，大部分是需要安装twisted库，方法如下
在这里插入图片描述

2：Scrapy框架简介（三个数据流）：

1）数据流一：
在这里插入图片描述

2）数据流二：

在这里插入图片描述

3）数据流三：

在这里插入图片描述
4）Scrapy框架需要用户写的地方：

在这里插入图片描述

3：Scrapy框架的使用

1）以demo网页举例：
在这里插入图片描述

2)建立爬虫工程：

在这里插入图片描述
3）在工程中产生一个Scrapy爬虫：

4）配置产生的爬虫：

在这里插入图片描述

5）运行爬虫，获取网页：

在这里插入图片描述
6）总结使用Scrapy的框架方法：

在这里插入图片描述

二、股票数据Scrapy爬虫项目实战

1.网页介绍与预期想要的结果

1）股票网址链接，从这里获得6位数字代码

在这里插入图片描述
2）再从这里获得股票的具体相关信息

3）输入url链接后，输出如下图：

在这里插入图片描述

2.爬虫思路分析以及标签可行性分析

1）总体思路：
在这里插入图片描述

2）：标签分析

1> 先找到/gs/sh_600000.shtml，然后得到6位数字，

在这里插入图片描述

2> 找到相应的单股的信息标签：
先用xpath找到最近的script标签，再将各个值从列表里提取出来
在这里插入图片描述

3.程序步骤

在这里插入图片描述

4.代码展示

1)建立工程和Spider模板
在这里插入图片描述

2）编写Spider，代码如下

在这里插入图片描述


import scrapy
import re


class StocksSpider(scrapy.Spider):
    name = 'stocks'
    #allowed_domains = ['baidu.com']
    start_urls = ['http://quote.stockstar.com/stock/stock_index.htm']

    def parse(self, response):
        for href in response.css('a::attrs(href)').extract():
            try:
                stock = re.search(r'/gs/sh_\d{6}.shtml', href).group(0).split('_')[1].split('.')[0]
                print(stock)
                url = "http://quotes.money.163.com/" + '0' + stock + '.html'
                yield scrapy.Request(url, callback = self.parse_stock)
            except:
                continue


    def parse_stock(self, response):
        infoDict = {}
        script = response.xpath('//div[@class="relate_stock clearfix"]/script[1]').extract()
        info = script[0].strip().split(',')
        infoDict['股票名称'] = eval(re.search(r'name\: \'.*\'', info[0]).group(0).split(':')[1])
        infoDict['股票代码'] = eval(re.search(r'code\: \'\d{6}\'', info[1]).group(0).split(":")[1])
        infoDict['现价'] = eval(re.search(r'price\: \'.*\'', info[2]).group(0).split(":")[1])
        infoDict['涨跌幅'] = re.search(r'change\: \'.*%', info[3]).group(0).split("'")[1]
        infoDict['昨收'] = eval(re.search(r'yesteday\: \'.*\'', info[4]).group(0).split(":")[1])
        infoDict['今开'] = eval(re.search(r'today\: \'.*\'', info[5]).group(0).split(":")[1])
        infoDict['最高'] = eval(re.search(r'high\: \'.*\'', info[6]).group(0).split(":")[1])
        infoDict['最低'] = eval(re.search(r'low\: \'.*\'', info[7]).group(0).split(":")[1])
        yield infoDict

3）编写Pipelines,代码如下：
在这里插入图片描述

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class BaidustocksPipeline(object):
    def process_item(self, item, spider):
        return item

class BaidustocksInfoPipeline(object):
    def open_spider(self, spider):
        self.f = open('BaiduStockInfos.txt', 'w')

    def close_spider(self, spider):
        self.f.close()

    def process_item(self, item , spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item