新手学习日记1-练习
爬baidu首页热点
一、创建工程
用scrapy创建个新项目爬baidu首页热点。命令行下输入命令,命令会在当前目录下创建baiduscrapy项目。
scrapy startproject baiduscrapy
cd baiduscrapy
scrapy genspider baidu "www.baidu.com"
二、修改parse
命令已经帮我们自动创建了爬虫代码,打开spiders文件夹下baidu.py文件,修改如下。
import scrapy
from baiduscrapy.items import BaiduscrapyItem
class BaiduSpider(scrapy.Spider):
name = 'baidu' #爬虫的名字,运行爬虫的时候就看这个参数。
allowed_domains = ['baidu.com'] #抓取的域名限制
start_urls = [</