scrapy框架

最新推荐文章于 2024-09-27 10:11:28 发布

白八实

最新推荐文章于 2024-09-27 10:11:28 发布

阅读量389

点赞数 8

文章标签： scrapy python 开发语言

本文链接：https://blog.csdn.net/2301_79740767/article/details/141297582

版权

什么是scrapy？

scrapy是一个用于爬取网站，提取结构性数据的一个半成品框架，里面集成了许多功能。

安装

Windows系统：

pip install scrapy

基本使用

创建项目

scrapy startproject 项目名

创建爬虫文件

cd 项目
scrapy genspider 文件名 url

运行项目

scrapy crawl 文件名

编写爬虫文件

理解爬虫文件的不同组成部分

    class BiliSpider(scrapy.Spider):
        #爬虫文件的名称，是当前爬虫文件的唯一标识
        name = 'bili'
        #允许的域名
        # allowed_domains = ['www.baidu.com']
        #起始的url列表：可以将即将被请求的url，存放在当前列表中。默认情况，列表中存储的url都会被scrapy框架进行get请求的发送
        start_urls = ['https://www.baidu.com/','https://www.sogou.com']
        #实现数据解析
        #参数response表示请求对应的响应对象
        #parse方法调用的次数取决于请求的次数
        def parse(self, response):
            print(response)

配置文件修改:settings.py

- 不遵从robots协议：ROBOTSTXT_OBEY = False

- 指定输出日志的类型：LOG_LEVEL = 'ERROR'

- 指定UA：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.109 Safari/537.36'

数据解析

def parse(self, response):
    #可以进行数据解析而无需转为文本后再解析
    text = response.xapth(xpath路径)

持久化存储

基于管道实现持久化存储（主要）

在items.py文件中定义相关的字段

 import scrapy
    
    
    class BiliproItem(scrapy.Item):
        # define the fields for your item here like:
        title = scrapy.Field()
        author = scrapy.Field()

在爬虫文件中引入Item类，实例化item对象，将解析到的数据存储到item对象中

item = BiliproItem()
 #将解析到的数据存储到了item对象中
item['title'] = title
item['author'] = author
#输出向管道
yield item

将item对象提交给管道

#将存储好数据的item对象提交给管道
  yield item
  ```
- 管道只可以接收item类型的对象，不可以接收其他类型对象

- ```python
  class BiliproPipeline:
      #process_item用来接收爬虫文件传递过来的item对象
      #item参数，就是管道接收到的item类型对象
      def process_item(self, item, spider):
          print(item)
          return item

实例

class BiliproPipeline:
      fp = None #全局变量
      #该函数只会被在process_item函数调用前被调用一次
      def open_spider(self,item):
          print('文件被创建成功！')
          self.fp = open('bili.txt','w')
      #该函数只会在process_item函数调用完全结束后被调用一次
      def close_spider(self,item):
          self.fp.close()
          print('文件被关闭！')
      #该函数是用来接收爬虫文件给其提交过来的item对象
      #参数item就表示接收到的item对象
      #该函数的调用次数取决于爬虫文件向其提交item对象的个数
      def process_item(self, item, spider):
          title = item['title']
          author = item['author']
          self.fp.write(author+':'+title+'\n')
          print(title,'：写入文件成功！')
          return item

开启管道机制

在setting.py中把ITEM_PIPELINES解除注释就表示开启了管道机制

基于终端指令的持久化存储

     #该中方式只可以将parse方法的返回值存储到指定后缀（csv）的文本文件中
          def parse(self, response):
              #注意：Element选项卡是所有数据渲染完毕后的效果
              #network是对一个请求对应的响应数据的具体结果
              div_list = response.xpath('//*[@id="i_cecream"]/div/div[2]/div[2]/div/div/div/div[2]/div/div')
              all_data = []
              for div in div_list:
                  #注意：scrapy中xpath进行数据提取，获取的是一个Selector对象，想要的文本数据是存储在该对象内部的
                  #extract()可以将xpath返回列表中每一个selector对象中的文本数据进行提取
                  title = div.xpath('./div/div[2]/div/div/a/h3//text()').extract()
                  title = ''.join(title)
                  # author = div.xpath('./div/div[2]/div/div/p/a/span[1]/text()').extract()[0]
                  #extract_first()可以将xpath返回列表中第一个列表元素表示的selector对象中的文本数据提取出来
                  author = div.xpath('./div/div[2]/div/div/p/a/span[1]/text()').extract_first()
                  dic = {
                      'title':title,
                      'author':author
                  }
                  all_data.append(dic)
              #爬取到的数据被作为parse方法的返回值
              return all_data

将parse方法的返回值存储到指定后缀的文本文件中:

scrapy crawl 爬虫文件名称 -o bilibili.csv

白八实

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫