scrapy 框架爬取网站实例

最新推荐文章于 2023-07-07 15:00:52 发布

dandanfengyun

最新推荐文章于 2023-07-07 15:00:52 发布

阅读量993

点赞数 1

分类专栏：爬虫 Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dandanfengyun/article/details/84863546

版权

本文介绍了如何使用Scrapy框架爬取指定网站，如https://www.dushu.com/news/99.html，涵盖了创建工程、定义Spider、解析网页、获取页面与详情页信息的流程。在items.py中定义数据结构，利用pipelines.py处理数据并存储到MongoDB。通过CrawlSpider和LinkExtractor规则，实现自动化爬取和跟随链接。

摘要由CSDN通过智能技术生成

scrapy框架爬取网站
比如https://www.dushu.com/news/99.html 爬取这个分类下每篇文章的标题作者内容等

首先创建工程
终端输入

scrapy startproject News

进入工程目录
cd News
创建 spider 文件主要获取网页及处理在逻辑写在其中

 scrapy genspider history www.dushu.com

这个读书网站是比较规则的有信息页及详情页可使用 CrawlSpider 爬取
先使用常规方法爬取
在history.py 中实现页面获取解析逻辑
页面中自带一个类继承 scrapy.Spider
类中有三个属性

name spider名。在执行爬虫文件时会用到
allowed_domains 允许的域名 www.dushu.com 可以删除
start_urls 默认识别解析的网页换为https://www.dushu.com/news/99.html

scapy执行时会调用 start_request()方法。。。默认是没有的。。。不是一定要重写该方法该方法会将根据网址生成 request请求。scrapy.Request(url)默认callback回调方法是parse 如果我们重写该方法要和默认执行一样则为

def start_requests(self):
    for url in self.start_urls:
        yield scrapy.Request(url)

根据start_url中内容生成迭代器

pars

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dandanfengyun CSDN认证博客专家 CSDN认证企业博客

码龄8年

100: 原创

5万+: 周排名

101万+: 总排名

25万+: 访问

: 等级

2777: 积分

69: 粉丝

127: 获赞

122: 评论

749: 收藏

私信

关注

热门文章

分类专栏

最新评论

django restframework 中 APIView中验证权限以及节流使用以及一点点原理说明
MuYeSenSen: 这还得充会员才能看？
grafana的image render设置
Slizgo: 您好，我也遇到了和您一样的问题，麻烦请问最后解决了吗
grafana的image render设置
weixin_39520004: 您好，我遇到一些问题，目前按照方法二安装了grafana-image-render插件，但是报错 error rendering PNGs in parralel for dash {Title:process\_residentDashBoard Description: VariableValues: Rows:[] Panels:[{Id:2 Type:graph Title:Panel Title GridPos:{H:14 W:21 X:0 Y:0}}]}: error getting panel {Id:2 Type:graph Title:Panel Title GridPos:{H:14 W:21 X:0 Y:0}}: Error obtaining render: 500 Internal Server Error，不知是为什么，还有您这一句，应当是在哪里执行？ kolla-ansible reconfigure -i /etc/kolla/all-in-one
CentOS7上CloudStack4.11.0部署，双网卡模拟公网私网基本网络设置
Austinu: 这个我知道，目前也是这么做的
CentOS7上CloudStack4.11.0部署，双网卡模拟公网私网基本网络设置
Austinu: 这个我知道，目前也是这么做的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。