用python实现爬虫
一、安装
pip install Scrapy
安装后,只要在命令终端输入 scrapy,提示类似以下结果,代表已经安装成功。
二、新建项目(scrapy startproject)
在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,运行下列命令:
scrapy startproject mySpider
三、设置生成样式(mySpider/items.py)
我们打算抓取 http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。
打开 mySpider 目录下的 items.py。
import scrapy
class ItcastItem(scrapy.Item):
name = scrapy.Field()
title = scrapy.Field()
info = scrapy.Field()
四、爬虫 (spiders/itcastSpider.py)
爬虫功能要分两步:
- 爬数据
在当前目录下输入命令,将在mySpider/spider目录下创建一个名为itcast的爬虫。
scrapy genspider itcast "itcast.cn"
打开 mySpider/spider目录里的 itcast.py:
import scrapy
class ItcastSpider(scrapy.Spider):
name = "itcast"
allowe