目录
解析出的数据进行持久化存储的两种方式:
一是基于终端指令的存储:
可以存储为json,jsonlines,jl,csv,xml,marshal,pickle格式,有局限性
实现方式,在爬虫文件解析函数重添加返回值return 值,然后在执行一下命令
scrapy crawl 爬虫文件名 -o ./存储路径.后缀
例如:下面是test爬虫文件
import scrapy
class TestSpider(scrapy.Spider):
name = 'test'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://search.bilibili.com/all?keyword=python']
#b站中搜索python 的连接
def parse(self, response):
'''
将搜索出的页面进行解析,找到当页的每个
up主名字(up_name),视频信息(title),时长(time_long),视频连接(link),观看数量(watch_num)
然后进行存储
'''
li_items=response.xpath('//ul[@class="video-list clearfix"]/li[@class="video-item matrix"]')
info_list=[]
for li in li_items:
dic={}
dic['link']=li.xpath('./a/@href').extract_first()
dic['title']=li.xpath('./a/@title').extract_first()
dic['time_long']=li.xpath('./a//span[@class="so-imgTag_rb"]/text()').extract_first()
dic['up_name']=li.xpath('./div//a[@class="up-name"]/text()').extract_first()
watch_num=li.xpath('./div//span[@class="so-icon watch-num"]/text()').extract_first().strip('"')
dic[&