说到爬虫自然离不开scrapy
那么这次就用scrapy来写一个小爬虫
这次的目标是爬取中国天气网:tianqi.com上的中国各省市当日天气情况
关于scrapy的详细操作和内容就不一一介绍了,简单说一下这次爬虫的步骤吧
操作都是在cmd里用命令行的形式输入
创建一个项目:scrapy startproject tianqi
cd tianqi 进入到这个文件夹
创建一个爬虫:scrapy genspider weather tianqi.com
然后就会在tianqi文件夹里看到一些.py的文件
spdier文件
接下来我们就要在这些.py文件中来做文章
Spider
首先最重要的是spider里的weather.py文件,
它是整个爬虫爬取数据的部分,爬到数据后会返回给PIPELINE处理
# -*- coding: utf-8 -*-
import scrapy
from tianqi.items import TianqiItem #将items导入进来,使得数据能够使用
from bs4 import BeautifulSoup
import re
class WeatherSpider(scrapy.Spider):
name = 'weather'
allowed_domains = ['tianqi.com']
start_urls = ['http://www.tianqi.c