金融数据分析(五)爬取股票数据——方法二:scrapy爬虫框架

案例(二)爬虫预热

项目二:用两种不同的方法爬取股票数据

方法二:scrapy爬虫框架

此案例是运用scrapy框架对相关内容进行抓取。

安装scrapy框架

打开cmd,输入以下代码进行安装:

pip install scrapy

验证是否安装成功:

scrapy -h
创建一个新的Scrapy爬虫工程

scrapy安装成功后,继续在cmd里输入代码创建工程。
将目录切换到想要创建爬虫项目的路径下,执行:

scrapy startproject baidustocks

执行完毕后,会在目录下生成一系列文件夹和.py等文件。
在这里插入图片描述

在工程中产生一个Scrapy爬虫

只需要在cmd中输入一行命令,我们需要指定爬虫的名字和爬取的网站。

cd baidustocks
scrapy genspider stocks hq.gucheng.com/gpdmylb.html

stocks为爬虫名
hq.gucheng.com/gpdmylb.html为爬取网站

完成后会生成一个名叫stocks.py的文件。

配置产生的spider爬虫

安照自己的需求修改该爬虫文件。
我以爬取股票数据为例:

# -*- coding: utf-8 -*-

import scrapy
import re
from scrapy.selector import Selector
 
 
class StocksSpider(scrapy.Spider):
    name = 'stocks'
    start_urls = ['https://hq.gucheng.com/gpdmylb.html']
 
    def parse(self, response):
        for href in response.css('a::attr(href)').extract():
            try:
                stock = re.search(r'S[HZ]\d{6}/', href)
                url = 'https://hq.gucheng.com/' + stock.group()
                yield scrapy.Request(url, callback=self.parse_stock)
            except:
                continue
 
    def parse_stock(self, response)
  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值