爬取笔趣阁小说网站上的所有小说（一）

最新推荐文章于 2024-07-16 18:59:25 发布

Abby.R

最新推荐文章于 2024-07-16 18:59:25 发布

阅读量3.2k

点赞数 4

分类专栏： python 爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_43630441/article/details/106649256

版权

本文介绍了如何使用Python爬取笔趣阁小说网站上的所有小说。首先分析了网站的反爬虫策略，接着解析了小说网址的结构，通过 BeautifulSoup 库获取每个小说的链接，最后将这些链接写入文件，每页保存30个小说的URL。

摘要由CSDN通过智能技术生成

爬取笔趣阁小说网站上的所有小说（一）

网址为：https://www.biqukan.cc/topallvisit/1.html

反反爬虫

爬虫首先要做的就是看看目标网址有没有反爬虫手段，一般网站都是有的，但是想这种网站的话，一般不会太厉害，所以只要价格请求头就好了。

user_agent = r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
head = {
   'User-Agnet': user_agent, }

分析网址

打开网址的调试模式，第一章方法：按F12打开调试模式，然后点击调试窗口左上角的鼠标按钮，选择一个元素（小说）就可以看到对用的内容了；第二周方法，也可以在一个小说上点击右键，选择检查（Chrome浏览器）或审查（Firefox浏览器），就可以得到以下内容：

在这里插入图片描述

通过观察我们可以发现，对应打开的小说的源代码，上下对比可以考到每个小说的所有内容都在一个div里面，所以我们只需获得这些div就可以得到网址了；

    # 获得网页源码
    html = requests.get(url=first_url,headers=head)
    # 把我们使用的编码改成和网站相同的编码
    html.encoding = html.appare

最低0.47元/天解锁文章

Abby.R

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录