Scrapy框架学习 - 爬取参考消息网“整站”新闻

本文介绍了如何使用Scrapy框架爬取参考消息网的新闻。首先从导航页面抓取分类信息,接着根据二级分类爬取新闻列表页的链接,并进一步获取新闻详情页的内容。在爬取过程中,解决了编码问题和页码自增的处理。文章提供了items.py, cankaoxiaoxi_spider.py, pipelines.py和settings.py等关键源码。" 82720430,7935040,D型主从触发器的电路结构分析,"['FPGA', '数字电路', '触发器', '逻辑设计', '电路分析']
摘要由CSDN通过智能技术生成

概述

使用Scrapy框架爬取参考消息网整站”新闻

(其实只是爬取了六大类中的所有新闻,因为其它页面中的url链接有点乱,需要单独处理,这里只是为了练习整站爬虫的思路)


代码逻辑如下:

1. 先从网站导航页面提取分类信息(一级分类和二级分类);

2.然后根据二级分类中的链接跳转到新闻列表页面,爬取每一条新闻的链接

3. 根据新闻条目链接,跳转到新闻详情页,爬取最终需要的信息


遇到的问题及其解决办法:

1.编码问题。在爬取到数据后,拼接文件保存路径时,总是报编码错误(编码很重要)

最后才意识到,因为Scrapy返回的数据经过extract()方法处理为Unicode格式,而PYthon默认格式为UTF-8。

所以,解决办法就是把自己写的字符串解码为Unicode格式,如下:

news_dir=u"{}{}{}{}".format(b_dir,'/'.decode(),news_title,'.txt'.decode())


2. 文件保存路径传递问题

每一条新闻都有自己所属的分类(一级分类和二级分类),但是它们的路径需要通过方法进行传递。

传递时机,决定了最后的真实保存路径。经过分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值