【Python网络爬虫与信息提取】Scrapy爬虫框架

最新推荐文章于 2024-01-28 15:37:11 发布

Tabitha_Xing

最新推荐文章于 2024-01-28 15:37:11 发布

阅读量358

点赞数

分类专栏： Knowledge learning 文章标签： python 爬虫 scrapy

本文链接：https://blog.csdn.net/qq_44122600/article/details/129332548

版权

Knowledge learning 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

该文介绍了如何运用Python的Scrapy框架构建股票爬虫。首先，通过pip安装Scrapy，创建项目和Spider。接着，目标设定为从东方财富网和百度股票获取股票列表及个股信息。文章详细阐述了编写Spider处理链接和页面解析，以及利用pipelines进行数据存储的步骤。

摘要由CSDN通过智能技术生成

1 理论知识

pip install scrapy -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
scrapy -h
scrapy startproject python123demo
D:\pycodes>scrapy startproject python123demo
D:\pycodes\python123demo>scrapy genspider demo python123.io
D:\pycodes\python123demo>scrapy crawl demo

结果输出

2 股票数据Scrapy爬虫实例介绍

目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中
技术路线：scrapy
数据网站的确定：东方财富网（获取股票列表）：http://quote.eastmoney.com/stocklist.html；百度股票（获取个股信息）：https://gupiao.baidu.com/stock/;单个股票（获取个股信息）：https://gupiao.baidu.com/stock/sz002439.html
程序框架：编写spider处理链接爬取和页面解析；编写pipelines处理信息存储
实例编写：
- step 1. 建立工程和Spider模板
- step 2. 编写Spider
- step 3. 编写ITEM Pipelines