scrapy 爬取糗事百科段子篇章一

还是那片西瓜吗

于 2020-07-07 23:40:13 发布

阅读量343

点赞数 1

分类专栏： scrapy爬虫框架

本文链接：https://blog.csdn.net/qq_37377136/article/details/107191065

版权

scrapy爬虫框架专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目前还是简单的爬取数据，目前的数据不完全，个人目前相当于做个笔记，可简单的做个参看。
在这里插入图片描述

一、创建爬虫项目

scrapy  startproject ITtest

startproject	#开始创建项目
ITtest01		#创建项目名

在这里插入图片描述

二、生成爬虫

cd  qiushi/qiushi/spiders  &&  scrapy  genspider ITtest  www.qiushibaike.com/text/page/1

cat ITtest.py

在这里插入图片描述
上面说到url地址，现在说明分析下：
1、访问第二页

2、接着url路由将2改成1试试

三、配置爬虫文件
vim settings.py

BOT_NAME = 'qiushi'
SPIDER_MODULES = ['qiushi.spiders']
NEWSPIDER_MODULE = 'qiushi.spiders'
ROBOTSTXT_OBEY = False   #不遵守robots 协议
CONCURRENT_REQUESTS = 3  #隔3s爬取一次（正常普通网友点击全部页面的话3分钟）
COOKIES_ENABLED = False    
DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'    #模拟用户浏览器的型号
}
ITEM_PIPELINES = {
    'qiushi.pipelines.QiushiPipeline': 300, #优先级
}

在这里插入图片描述

四、自定义item字段

vim  items.py

在这里插入图片描述
五、编写爬虫文件

vim ITtest.py

import scrapy
from qiushi.items import QiushiItem   #导入糗事项目下items中QiushiItem函数
from scrapy.http.response.html import HtmlResponse   #导入HtmlXPathSelector模块
from scrapy.selector.unified   import SelectorList   #导入SelectorList模块

class IttestSpider(scrapy.Spider):
    name = 'ITtest'
    allowed_domains = ['www.qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']
    bash_domain = "https://www.qiushibaike.com"

    def parse(self, response):
        body = response.xpath('//div[@class="col1 old-style-col1"]/div')
        for duanzhi in body:
            touxiang = duanzhi.xpath('.//div//@src').get()
            neirong = duanzhi.xpath('.//div[@class="content"]//text()').getall()
            neirong = "".join(neirong).strip()
            zuozhe  = duanzhi.xpath('.//div//h2/text()').get().strip()
            item = QiushiItem(头像=touxiang,作者=zuozhe,内容=neirong)
            yield item
        next_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()
        if not next_url:
            return
        else:
            yield  scrapy.Request(self.bash_domain+next_url,callback=self.parse)

六、检查爬虫语法

 scrapy check ITtest

在这里插入图片描述

七、执行爬虫脚本

scrapy  crawl  ITtest

在这里插入图片描述
八、数据处理储存

vim pipelines.py

from itemadapter import ItemAdapter
import json

class QiushiPipeline:
    def __init__(self):
        #open自动判断是否有文件有则不进行创建。w写入，字符编码中文
        self.fp = open("qiushi.json","w",encoding='utf-8')

    def process_item(self, item, spider):
        print("爬虫开始")

    def process_item(self, item, spider):
        #json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
        #item_json = json.dumps(item,ensure_ascii=False)
        item_json = json.dumps(dict(item),ensure_ascii=False)
        self.fp.write(item_json+'\n')
        return item

    def close_spider(self,spider):
        #关闭文件流
        self.fp.close()
        print("爬虫结束了")

九、再次执行

scrapy crawl ITtest

在这里插入图片描述

cat qiushi.json  -n

在这里插入图片描述
我们随便哪一个头像的url访问试试

后期规划，目前只是入门的爬虫还需要优化，后期将使用mongodb、redis作为缓存与存储，当爬虫脚本多起来将制作成docker镜像放入k8s中保证服务的稳定。

还是那片西瓜吗

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy 爬取糗事百科段子篇章一

目前还是简单的爬取数据，目前的数据不完全，个人目前相当于做个笔记，可简单的做个参看。一、创建爬虫项目scrapy startproject ITteststartproject #开始创建项目ITtest01 #创建项目名二、生成爬虫cd qiushi/qiushi/spiders && scrapy genspider ITtest www.qiushibaike.com/text/page/1cat ITtest.py上面说到url地址，现在
复制链接

扫一扫