爬虫第七课--scrapy（三）爬取163新闻

最新推荐文章于 2023-12-02 13:05:44 发布

韩淼燃

最新推荐文章于 2023-12-02 13:05:44 发布

阅读量380

点赞数 1

分类专栏： python怕虫项目课程文章标签： spider 爬虫 crawlSpider

本文链接：https://blog.csdn.net/weixin_36691991/article/details/89892645

版权

python怕虫项目课程专栏收录该内容

18 篇文章 10 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本节课重点介绍了如何利用Scrapy的crawlSpider模板爬取163新闻。通过实例展示了从之前的文件存储转变为MongoDB数据库存储的过程。对于不熟悉这一转换的读者，可以联系博主进行咨询。

摘要由CSDN通过智能技术生成

这节课，我们学习一个新的爬取模板---crawlSpider

'''
crawlSpider类的基本使用
切换模板
scrapy genspider -t crawl 爬虫名称 爬取网址

LinkExtractors  :提取链接

参数：allow()满足则表达式的值会提取
      restrict_xpaths() 满足xpath路劲的值

Rule

流程：导入模块LinkExtractors(from scrapy.linkextractors import LinkExtractor)

CrawlSpider 类源码

extract_links
'''
"""
案例分析网易新闻
scrapy startproject new
scrapy genspider -t crawl new_spider 域名
"""

接下来，我们试着做一个小案例：

spider代码：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class NewSpiderSpider(CrawlSpider):
    name = 'new_sp

了解本专栏