爬虫第七课--scrapy(三)爬取163新闻

本节课重点介绍了如何利用Scrapy的crawlSpider模板爬取163新闻。通过实例展示了从之前的文件存储转变为MongoDB数据库存储的过程。对于不熟悉这一转换的读者,可以联系博主进行咨询。
摘要由CSDN通过智能技术生成

这节课,我们学习一个新的爬取模板---crawlSpider

'''
crawlSpider类的基本使用
切换模板
scrapy genspider -t crawl 爬虫名称 爬取网址

LinkExtractors  :提取链接

参数:allow()满足则表达式的值会提取
      restrict_xpaths() 满足xpath路劲的值

Rule

流程:导入模块LinkExtractors(from scrapy.linkextractors import LinkExtractor)

CrawlSpider 类源码

extract_links
'''
"""
案例分析网易新闻
scrapy startproject new
scrapy genspider -t crawl new_spider 域名
"""

接下来,我们试着做一个小案例:

spider代码:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class NewSpiderSpider(CrawlSpider):
    name = 'new_sp
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

韩淼燃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值