爬get接口_网络字体反爬之起点中文小说

最新推荐文章于 2022-08-31 09:40:09 发布

weixin_39675728

最新推荐文章于 2022-08-31 09:40:09 发布

阅读量191

点赞数

文章标签：爬get接口

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39675728/article/details/111707988

版权

本文介绍了如何使用pyspider框架爬取起点中文网的小说信息，包括小说名、作者、更新状态等。在爬取过程中遇到了字体反爬的问题，通过研究发现了字体文件和fonttools库，成功解析出字数。此外，还分享了如何避免pyspider的重复请求过滤，确保数据完整抓取。

摘要由CSDN通过智能技术生成

前几天跟同事聊到最近在看什么小说，想起之前看过一篇文章说的是网络十大水文，就想把起点上的小说信息爬一下，搞点可视化数据看看。这段时间正在看爬虫框架-pyspider，觉得这种网站用框架还是很方便的，所以今天就给大家带来这篇---起点中文网小说爬取。可视化我们放到下一集。

安装使用

安装和基本使用请查看pyspider中文文档，我们这篇主要不是介绍pyspider哦。Mac安装的过程中出现了一些问题，请看Mac安装pycurl失败，装好以后使用pyspider all启动。然后打开浏览器输入：http://localhost:5000/

创建以后，我们就开始分析并编写起点爬虫了。

爬虫编写

打开起点中文网(https://www.qidian.com/)，选择全部作品并按照字数排序

右键检查元素，因为是静态网页，所以我们就直接解析网页元素就行了，可以使用BeautifulSoup、PyQuery、xpath或者正在表达式。我习惯用xpath，所以就采这个坑了。

Chrome可自动生成xpath

但是生成的大部分情况下都不是很合适，比如/html/body/div[2]/div[5]/div[2]/div[2]/div/ul/li[1]/div[2]/h4/a，你看这有多长，还是自己写吧，chrome浏览器可以帮我们验证xpath这个是很方便的，有的人是按照xpathhelper插件，我觉得原生就很好用了, CTRL

最低0.47元/天解锁文章

weixin_39675728

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬get接口_网络字体反爬之起点中文小说

前几天跟同事聊到最近在看什么小说，想起之前看过一篇文章说的是网络十大水文，就想把起点上的小说信息爬一下，搞点可视化数据看看。这段时间正在看爬虫框架-pyspider，觉得这种网站用框架还是很方便的，所以今天就给大家带来这篇---起点中文网小说爬取。可视化我们放到下一集。安装使用安装和基本使用请查看pyspider中文文档，我们这篇主要不是介绍pyspider哦。Mac安装的过程中出现了一些问题，请...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。