scrapy 框架 爬取 网站 实例

scrapy框架爬取网站
比如https://www.dushu.com/news/99.html 爬取这个分类下每篇文章的标题 作者 内容等

首先 创建工程
终端输入

scrapy startproject News

进入工程目录
cd News
创建 spider 文件 主要获取网页 及 处理在逻辑写在其中

 scrapy genspider history www.dushu.com

这个读书网站是比较规则的 有 信息页 及详情页 可使用 CrawlSpider 爬取
先使用常规方法爬取
在history.py 中实现 页面获取解析逻辑
页面中自带一个类 继承 scrapy.Spider
类中有三个属性

name spider名。在执行爬虫文件时会用到
allowed_domains 允许的域名 www.dushu.com 可以删除
start_urls 默认识别解析的网页 换为https://www.dushu.com/news/99.html

scapy执行时 会调用 start_request()方法。。。默认是没有的。。。不是一定要重写该方法该方法会将根据网址生成 request请求。scrapy.Request(url)默认callback回调方法是parse 如果我们重写该方法要和默认执行一样 则为

def start_requests(self):
    for url in self.start_urls:
        yield scrapy.Request(url)

根据start_url中内容生成迭代器

pars

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值