用Scrapy爬取笔趣阁小说

最新推荐文章于 2024-07-29 15:43:44 发布

Charlie。

最新推荐文章于 2024-07-29 15:43:44 发布

阅读量6.9k

点赞数 2

分类专栏：爬虫文章标签： python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caoyu1221/article/details/80617923

版权

今天早上无聊，去笔趣阁扒了点小说存Mongodb里存着，想着哪天做一个小说网站有点用，无奈网太差，爬了一个小时就爬了几百章，爬完全网的小说，不知道要到猴年马月去了。再说说scrapy这个爬虫框架，真是不用不知道，一用吓一跳，这个实在太好用了，比自己用request，Beautifulsoup这些模块来爬，实在要简单不知多少倍。废话不多说，现在开始上代码。

首先用virtualEnv创建虚拟环境并pip安装Scrapy的步骤我就不多废话了，建好project后在项目目录下会有如下几个文件

我们先点开items.py这个文件开始定义字段，这些字段用来保存数据，方便我们后续的操作。其中name是小说名字，author是作者，content是小说内容。

import scrapy


class ClawerItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()

定义好字段后，我们就在spiders文件夹中编写自己的爬虫：rules可以理解成给定一个规则，让爬虫自己去爬这些网页，其中正则表达式则代表前缀满足http://www/biquge.com.tw/的任何网页，也就是爬整个笔趣阁， callback则是调用parse_item的方法。在parse_item里面，xpath只需在网页中打开开发者工具然后找到需要的地方，右键copy就可以了。至于不知道Xpath是什么的同学如果有兴趣可以到runoob去看看。

from scrapy.selector import Selector
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

最低0.47元/天解锁文章

关注

2
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Charlie。 CSDN认证博客专家 CSDN认证企业博客

码龄12年

52: 原创

5万+: 周排名

207万+: 总排名

148万+: 访问

: 等级

3419: 积分

124: 粉丝

88: 获赞

13: 评论

441: 收藏

私信

关注

热门文章

分类专栏

docker 7篇
mysql 3篇
信息安全 2篇
three.js 1篇
opencv 1篇
机器学习 7篇
爬虫 4篇
django 3篇
python基础 5篇
python面试题 2篇
测试
fusionstorage 2篇
python 4篇
vue 6篇

最新评论

密码学基础--AES和DES
2301_79935800: 数学分析攻击和统计分析攻击实质上是一个东西吧，统计分析攻击归类在数学分析攻击下面。另一类是否是侧信道攻击？
python机器学习入门到精通(一)
MY官网: https：//andi.mengyang.store
python机器学习入门到精通(一)
互联网-小阿宇: 看看我的主页被我最新也在学习python 向您学习互粉
OnlyOffice文档预览接入（二）
含水烟花: onlyoffice开发部署采坑笔记，个人整理验证 https://www.daxueyiwu.com 搜索onlyoffice 网盘接入onlyoffice实现word文档，excel表格, ppt演示文稿的创建，在线预览，协同编辑中文版onlyoffice/documentserver镜像制作下载 onlyOfice取消上传文件大小的限制 onlyoffice更新中文字体字号总结 windows 10 下用docker安装onlyoffice服务 onlyoffice相关命令记录 onlyoffice插件部署 Docker安装Onlyoffice并更新中文字体的办法修改onlyoffice的文档存储为手动存储，关闭浏览器时不再进行保存 onlyoffice通过插件定位工作表中的单元格 onlyoffice回调函数controller方式实现 Windows7安装OnlyOffice Document Server(不使用Docker) onlyOffice编辑保存后显示编码乱码问题-Unicode(UTF-8) onlyoffice去除拼写检查 onlyoffice启用HTTPS
OnlyOffice文档预览接入
含水烟花: onlyoffice开发部署采坑笔记，个人整理验证 https://www.daxueyiwu.com 网盘接入onlyoffice实现word文档，excel表格, ppt演示文稿的创建，在线预览，协同编辑中文版onlyoffice/documentserver镜像制作下载 onlyOfice取消上传文件大小的限制 onlyoffice更新中文字体字号总结 windows 10 下用docker安装onlyoffice服务 onlyoffice相关命令记录 onlyoffice插件部署 Docker安装Onlyoffice并更新中文字体的办法修改onlyoffice的文档存储为手动存储，关闭浏览器时不再进行保存 onlyoffice通过插件定位工作表中的单元格 onlyoffice回调函数controller方式实现 Windows7安装OnlyOffice Document Server(不使用Docker) onlyOffice编辑保存后显示编码乱码问题-Unicode(UTF-8) onlyoffice去除拼写检查 onlyoffice启用HTTPS

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。