一个完整的scrapy 项目

最新推荐文章于 2024-03-14 10:24:03 发布

18923489164

最新推荐文章于 2024-03-14 10:24:03 发布

阅读量714

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/AnYeZhiYin/article/details/105889203

版权

爬虫专栏收录该内容

117 篇文章 14 订阅

订阅专栏

#注意管道文件一定要看settings.py是否开启不然不会执行

# -*- coding: utf-8 -*-
import scrapy
from bs4 import BeautifulSoup as bs
import re
from douban.items import DoubanItem #这里是要引入items字段 

#scrapy crawl dou

class DouSpider(scrapy.Spider):

    name = 'dou' #爬虫名字
    
    start_urls = ['https://movie.douban.com/subject/30314127/reviews'] #需要爬的链接

    def parse(self, response):
         
        html = response.text

        html = bs(html,'lxml')

        cont = html.findAll('div',class_='main review-item')

        for i in cont:

            item = DoubanItem()#这里就是用items 字段来存获取的东西 相当于一个字典
                
            name = i.header.text
            name = re.sub('\n','',name)
                
            con = i.div.text
            con = re.sub('\n','',con)
            con = re.sub(' ','',con)


            item['name'] = name
            item['con'] = con


            #self.log(name)
            #self.log(con)
            #self.log('\n')
            #self.log('\n')
            
            yield item #存好就可以yield 这个是时时返回并不结束程序

import scrapy   #这个就是定义items 字段了
class DoubanItem(scrapy.Item):

    name = scrapy.Field()

    con = scrapy.Field()

#管道文件存items 字段过来的内容

class DoubanPipeline(object):

    def process_item(self, item, spider):
        
        with open("douban.txt", "a",encoding='utf-8')as f:

            f.write(item['name'])
            f.write('\n')
            f.write(item['con'])

            f.write('\n')
            f.write('\n')
            f.write('\n')

        
        return item

18923489164

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一个完整的scrapy 项目

#注意管道文件一定要看settings.py是否开启不然不会执行# -*- coding: utf-8 -*-import scrapyfrom bs4 import BeautifulSoup as bsimport refrom douban.items import DoubanItem #这里是要引入items字段 #scrapy crawl douclass Dou...
复制链接

扫一扫