Scrapy框架学习 - 爬取参考消息网“整站”新闻

最新推荐文章于 2023-03-21 20:08:34 发布

「已注销」

最新推荐文章于 2023-03-21 20:08:34 发布

阅读量1.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/topleeyap/article/details/78942670

版权

本文介绍了如何使用Scrapy框架爬取参考消息网的新闻。首先从导航页面抓取分类信息，接着根据二级分类爬取新闻列表页的链接，并进一步获取新闻详情页的内容。在爬取过程中，解决了编码问题和页码自增的处理。文章提供了items.py, cankaoxiaoxi_spider.py, pipelines.py和settings.py等关键源码。" 82720430,7935040,D型主从触发器的电路结构分析,"['FPGA', '数字电路', '触发器', '逻辑设计', '电路分析']

摘要由CSDN通过智能技术生成

概述

使用Scrapy框架爬取参考消息网“整站”新闻

（其实只是爬取了六大类中的所有新闻，因为其它页面中的url链接有点乱，需要单独处理，这里只是为了练习整站爬虫的思路）

代码逻辑如下：

1. 先从网站导航页面提取分类信息(一级分类和二级分类)；

2.然后根据二级分类中的链接跳转到新闻列表页面，爬取每一条新闻的链接

3. 根据新闻条目链接，跳转到新闻详情页，爬取最终需要的信息

遇到的问题及其解决办法：

1.编码问题。在爬取到数据后，拼接文件保存路径时，总是报编码错误（编码很重要）

最后才意识到，因为Scrapy返回的数据经过extract()方法处理为Unicode格式，而PYthon默认格式为UTF-8。

所以，解决办法就是把自己写的字符串解码为Unicode格式，如下：

news_dir=u"{}{}{}{}".format(b_dir,'/'.decode(),news_title,'.txt'.decode())

2. 文件保存路径传递问题

每一条新闻都有自己所属的分类（一级分类和二级分类），但是它们的路径需要通过方法进行传递。

传递时机，决定了最后的真实保存路径。经过分

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。