Reptile_08 Scrapy框架

一、 Scrapy安装

Windows:在终端输入命令:pip install scrapy
mac:在终端输入命令:pip3 install scrapy

二、 创建项目

以豆瓣读书为例
如:在D:\Study下创建项目 douban 文件夹,则
使用CMD进入D:\Study目录,运行命令:scrapy startproject douban

打开该项目目录,在spiders目录下创建一个.py文件,如douban.py
在这里插入图片描述
在这里插入图片描述
三、编辑爬虫
编辑douban.py,写入以下代码

import scrapy
import bs4
from ..items import DoubanplItem

class Doubanpl(scrapy.Spider):
    name = 'dbpl'  #定义爬虫名dbpl。启动爬虫的时候,使用这个名字
    allowed_domains = ['book.douban.com']  #定义允许爬虫爬取的网址域名
    start_urls = []  
    for x in range(2):
        url = 'https://book.douban.com/top250?start=' + str(x * 25)
        start_urls.append(url) ##把豆瓣读书书的前3页网址添加进start_urls

    def parse(self,response): #解析获取书的连接地址
    #parse是默认处理response的方法
        bs = bs4.BeautifulSoup(response.text,'html.parser')
        books = bs.find_all(class_="item")
        for i in books:
            book_url = i.find('a')['href'] #提取书的连接地址
            yield scrapy.Request(book_url, callback=self.getbook)
    
    def getbook(self,response): #解析获取书的评论内容
        bs = bs4.BeautifulSoup(response.text,'html.parser')
        comments = bs.find_all(class_="comment-item") #提取书评论列表
        bookname = bs.find(id='wrapper').find('h1').find('span').text #提取书名
        for j in comments:
            item = DoubanplItem()
            item['bookname'] = bookname #将书名赋值
            item['comment_id'] = j.find(class_="comment-info").find('a').text #获取评论ID
            item['short'] = j.find(class_="short").text #获取评论内容
            yield item
            #yield item是把获得的item传递给引擎

四、数据定义

打开items.py,写入以下代码

#导入scrapy
class DoubanplItem(scrapy.Item):
#定义一个类DoubanplItem,它继承自scrapy.Item
    bookname = scrapy.Field()
    #定义书名的数据属性
    comment_id = scrapy.Field()
    #定义评论ID的数据属性
    short = scrapy.Field()
    #定义评论内容的数据属性
    pass

五、设置

打开settings.py文件

1.USER _AGENT替换掉user-agent的内容,修改请求头
2.ROBOTSTXT_OBEY=True改成ROBOTSTXT_OBEY=False

六、运行

CMD进入项目目录
运行命令:scrapy crawl dbpl(dbpl就是我们爬虫的名字)

七、存储CSV格式

打开settings.py文件,添加以下代码:

FEED_URI='./storage/data/%(name)s.csv'
FEED_FORMAT='CSV'
FEED_EXPORT_ENCODING='ansi'

FEED_URI是导出文件的路径。’./storage/data/%(name)s.csv’,就是把存储的文件放到与settings.py文件同级的storage文件夹的data子文件夹里

FEED_FORMAT 是导出数据格式,写CSV就能得到CSV格式

FEED_EXPORT_ENCODING 是导出文件编码,ansi是一种在windows上的编码格式,你也可以把它变成utf-8用在mac电脑上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

法海爱捉虫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值