用python和scrapy实现基本爬虫功能

最新推荐文章于 2024-05-28 19:20:57 发布

西红柿爱喝番茄汤

最新推荐文章于 2024-05-28 19:20:57 发布

阅读量194

点赞数

分类专栏：入职必备基础技能文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_42804657/article/details/118560539

版权

一、安装
pip install Scrapy
安装后，只要在命令终端输入 scrapy，提示类似以下结果，代表已经安装成功。

二、新建项目(scrapy startproject)
在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：

scrapy startproject mySpider

三、设置生成样式(mySpider/items.py)
我们打算抓取 http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。
打开 mySpider 目录下的 items.py。

import scrapy
class ItcastItem(scrapy.Item):
   name = scrapy.Field()
   title = scrapy.Field()
   info = scrapy.Field()

四、爬虫（spiders/itcastSpider.py）
爬虫功能要分两步：

在当前目录下输入命令，将在mySpider/spider目录下创建一个名为itcast的爬虫。

scrapy genspider itcast "itcast.cn"

打开 mySpider/spider目录里的 itcast.py：

import scrapy

class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowe

关注