scrapy爬虫网站数据

最新推荐文章于 2024-08-05 20:06:05 发布

爱栗创

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量609

点赞数 1

分类专栏： Python网络爬虫学习文章标签： python 大数据数据挖掘

本文链接：https://blog.csdn.net/qq_51344334/article/details/110308670

版权

本文介绍了如何使用scrapy爬虫框架抓取传智播客C/C++讲师的姓名、职称和个人简介。首先，确认已安装scrapy并创建项目，然后解析网页结构，编写相关文件包括itcast.py、items.py、settings.py和pipelines.py。最终运行scrapy命令，生成包含爬取数据的json文件。

摘要由CSDN通过智能技术生成

scrapy爬虫

一.目的
1.数据抓取之网络爬虫
2.scrapy的使用方法，能使用scrapy抓取网页数据。
二.能力图谱
在这里插入图片描述
三、内容
1.内容：爬取传智播客C/C++讲师的姓名、职称以及个人简介。
2.目标网址：http://www.itcast.cn/channel/teacher.shtml
3.软件：已经成功安装好scrapy框架的pycharm软件 (专业版、社区版都可以)。
4.python3.7及以上。
5.使用scrapy框架实现爬虫，运用xpath解析方式。
四.过程
1、scrapy项目工程：在pycharm界面中打开 View --> Tool Windows --> Terminal
(1) 验证scrapy是否成功安装：在Terminal中输入 scrapy 看看是否显示scrapy信息
(2)创建scrapy项目工程在Terminal中输入：
scrapy startproject + 自定义的项目名称
成功创建项目的目录为：scrapy startproject ITcast
文件说明： scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）
items.py：设置数据存储模板，用于结构化数据，如：Django的Model
pipelines.py：数据处理行为，如：一般结构化的数据持久化
settings.py：配置文件，如：递归的层数、并发数，延迟下载等
spiders：爬虫目录，如：创建文件，编写爬虫规则
(3)创建写爬虫的文件 # scrapy genspider +名称 + ‘网站’
建立爬虫文件结果为： scrapy genspider itcast “itcast.cn”
2、解析网页
观察网页，通过浏览器得出他们是这样子的结构，并且我们运用强大的xpath解析方式解析：
3、编写代码需要编写四个相关联的文件：itcast.py、items.py、settings.py、pipelines.py (管道文件)。

(1) itcast.py 
 # -*- coding: utf-8 -*-
 import scrapy  
 #导入容器 
 from ITcast.items import  ItcastItem
 class ItcastSpider(scrapy.Spider):
                # 爬虫名 启动爬虫时需要的参数*必需    
                name = 'itcast'
                #