1、首先安装python3.7+
2、安装scrapy,,,,可使用命令面板进行pip安装,方法自行百度
我使用的是Mac 下的 PyCharm开发,
配置环境:在Python Interpreter上切换python3.7的环境,并安装Scrapy。
Scrapy运行流程(了解)
Scrapy运行流程大概如下:
- 引擎从调度器中取出一个链接(URL)用于接下来的抓取
- 引擎把URL封装成一个请求(Request)传给下载器
- 下载器把资源下载下来,并封装成应答包(Response)
- 爬虫解析Response
- 解析出实体(Item),则交给实体管道进行进一步的处理
- 解析出的是链接(URL),则把URL交给调度器等待抓取
过程:
1、cd 进入(工程)文件夹下面创建工程
scrapy startproject xxxxxxDemo
2、创建sprider 以 movie.douban为例子
cd xxxxxxDemo
scrapy genspider douban_movie movie.douban.com
3、使用pycherm打开 DoubookDemo 项目,编写代码
下面(三、代码编写)细说
4、打开命令面板Terminal cd在spiders文件路径下执行命令
scrapy crawl douban_spider
或者新建立一个如:main.py文件 ,直接Run执行
其他spider名字替换成你的spider名字
from scrapy import cmdline
# 输出未过滤的页面信息
cmdline.execute('scrapy crawl spider名字'.split())
三、代码编写
1、在Spider中,书写主要的东西:
name = 'hupu_bbs'
allowed_domains = ['bbs.hupu.com']
start_urls = ['http://bbs.hupu.com/bxj/']
# def start_requests(self):
# for i in range(1,10):
# yield scrapy.Request('http://bbs.hupu.com/bxj-' + str(i))
def parse(self, response):
movie_list = response.xpath("//div[@class='show-list']//ul[@class='for-list']/li")
modelList = []
for item in movie_list:
itemModel = HupudemoItem()
# douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
# douban_item['evaluate'] = i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
# douban_item['describle'] = i_item.xpath(".//p[@class='quote']/span/text()").extract_first()
itemModel['title'] = item.xpath(".//div[@class='titlelink box']/a/text()").extract_first()
itemModel['name'] = item.xpath(".//