爬虫 scrapy 抓取小说实例

最新推荐文章于 2024-01-21 22:33:19 发布

云中不知人

最新推荐文章于 2024-01-21 22:33:19 发布

阅读量1.2k

点赞数

分类专栏：爬虫 python 文章标签：爬虫实例 scrapy 小说

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011085172/article/details/77852525

版权

python 同时被 2 个专栏收录

48 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

以http://www.biquge.com/2_2970/ 这部小说为例，用scrapy对这部小说的章节进行抓取

#coding=utf-8
import scrapy,os
curpath = os.getcwd()
noveldir = ''
class novelSpider(scrapy.Spider):
	name = 'xiaoshuo'
	start_urls = ['http://www.biquge.com/2_2970/']	
	def __init__(self):
		self.noveldir = ''
		
	def parse(self,response):
		title = response.css('div#info h1::text').extract_first()    #小说名
		self.noveldir = os.path.join(curpath,title)
		self.log(self.noveldir )
		if not os.path.exists(self.noveldir ):
			os.makedirs(self.noveldir )                          #创建小说目录
		self.log('开始下载%s' % title.encode('utf8'))  
		for href in  response.css('dd a').css('a::attr(href)'):      #小说章节链接
			yield response.follow(href,self.parse_page)          
	def parse_page(self,response):
		filename = response.css('div.bookname h1::text').extract_first().strip() #章节名，同时作为文件名
		self.log('开始下载 %s' % filename.encode('utf8'))
		with open(os.path.join(self.noveldir ,filename),'w+') as f:
			for item in response.css('div#content::text').extract():         #小说章节内容写到文件
				f.write(item.encode("utf8")+"\n")

保存后执行scrapy crawl xiaoshuo就可以看到在目录下的全部小说章节了

云中不知人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

云中不知人 CSDN认证博客专家 CSDN认证企业博客

码龄11年

132: 原创

10万+: 周排名

224万+: 总排名

68万+: 访问

: 等级

6197: 积分

38: 粉丝

178: 获赞

78: 评论

293: 收藏

私信

关注

热门文章

分类专栏

linux 18篇
nagios监控系统 8篇
cloudstack 5篇
mysql 3篇
ceph 存储 4篇
shell 8篇
虚拟机 2篇
python 48篇
js 35篇
ansible 4篇
django 20篇
nginx 10篇
docker 7篇
zabbix 6篇
爬虫 1篇
开源 1篇
mongodb 2篇

最新评论

conflicts with file from package epel-release-6-8.noarch
hongdounuoyan: 文件冲突，不是服务冲突
python 多层嵌套列表转成一维列表
Flynn1392: python3 废除了包 compiler
python3.7 redis队列类实现
CSDN-Ada助手: 非常感谢您分享《python3.7 redis队列类实现》这篇博客，我觉得这种关于实现的技术文章很有价值，可以帮助其他用户更深入地理解相关技术。建议您下一篇博客可以继续探讨redis以及Python在缓存方面的应用，比如可以写一篇《Python使用redis实现缓存穿透解决方案》，相信会有更多读者对此感兴趣。期待您的新作品！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
nginx 启动问题：nginx (pid ) already running.
Yu的宝藏室: 给了我启示，apache启动报httpd.pid错误，也是删除了apache安装目录下的logs文件里的httpd.pid，启动就成功了
python mysql where in 对列表（list,,array）问题
天涯丿陌路: 真的是网上都是一大抄。真正的解决办法就是压根就不需要拼接或者组装 %s , 只需要 where id in %s 就可以了。 example : select * from student where id in %s 就可以了。注意 %s两边不需要加()

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。