PS:小编是为了参加大数据技能大赛而学习网络爬虫,对爬虫感兴趣的可以关注我哦,每周更新一篇~(这周迎来第一个粉丝,为了庆祝多发布一篇✌)
👉直奔主题👈
首先,我们来分析目标网页http://www.bookschina.com/kinder/54290000/
查看网页源代码,搜索关键字的快捷键是(Ctrl+F)
现在已经找到我们所需的信息块,下面开始go~ go~ go~
开始操作实战
第一步:创建bookstore项目,还是熟悉的三句命令:
(PS:记住是在cmd.exe下执行)
scrapy startproject bookstore
cd bookstore
scrapy genspider store "bookschina.com"
第二步:编写代码
一、 编写spider.py模块
# -*- coding: utf-8 -*-
import scrapy
import time
from scrapy import Request,Selector
from bookstore.items import BookstoreItem
class StoreSpider(scrapy.Spider):
name = 'store'
# allowed_domains = ['bookschina.com']
# start_urls = ['http://bookschina.com/']
next_url = 'http://www.bookschina.com'
url = 'http://www.bookschina.com/kinder/54290000/' #初始URL
# 伪装
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64) AppleWebKit/537.36 (KHTML , like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
def start_requests(self):
yield Request