scrapy学习笔记一 —— 创建jobbole小爬虫

一、安装scrapy

  • 创建虚拟环境
    • 运行命令:conda create -n scrapy python=3.7 ,会在anaconda安装目录下的envs文件夹下创建出scrapy运行环境:~/anaconda3/envs/scrapy/
    • 切换到刚刚创建的scrapy虚拟环境,运行命令:pip install scrapy
  • pycharm设置刚刚创建的解释器

二、创建爬虫py文件

import scrapy


class JobboleSpider(scrapy.Spider):  # 继承自scrapy的Spider类
    name = 'jobbole'  # 爬虫名称

    start_urls = ['http://blog.jobbole.com/all-posts/']  # 种子url

    def parse(self, response):  # 参数response为种子url的response,parse为start_urls的默认回调的解析方法
        for href in response.css("a.archive-title::attr(href)"):  # css选择器
            full_url = response.urljoin(href.extract())  # 获取到绝对url
            yield scrapy.Request(full_url, callback=self.parse_article)  # 为该url设置回调解析方法

    def parse_article(self, response):  # 文章解析方法
        yield {
            'title': response.css("div.entry-header h1::text").extract()[0],  # css选择器
            'date': response.css("p.entry-meta-hide-on-mobile::text").extract()[0].replace('·', '').strip(),  # css选择器
        }

三、运行爬虫

  • 回到刚刚的命令行运行命令:scrapy runspider jobbole_spider.py -o jobbole.json -s FEED_EXPORT_ENCODING=UTF-8(注意如果不加上-s FEED_EXPORT_ENCODING=UTF-8的话,中文会显示为unicode),运行完成后,就会在当前目录下面看到jobbole.json
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值