爬取笔趣阁小说网站上的所有小说(一)

本文介绍了如何使用Python爬取笔趣阁小说网站上的所有小说。首先分析了网站的反爬虫策略,接着解析了小说网址的结构,通过 BeautifulSoup 库获取每个小说的链接,最后将这些链接写入文件,每页保存30个小说的URL。
摘要由CSDN通过智能技术生成

爬取笔趣阁小说网站上的所有小说(一)

网址为:https://www.biqukan.cc/topallvisit/1.html

反反爬虫

爬虫首先要做的就是看看目标网址有没有反爬虫手段,一般网站都是有的,但是想这种网站的话,一般不会太厉害,所以只要价格请求头就好了。

user_agent = r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
head = {
   'User-Agnet': user_agent, }
分析网址

打开网址的调试模式,第一章方法:按F12打开调试模式,然后点击调试窗口左上角的鼠标按钮,选择一个元素(小说)就可以看到对用的内容了;第二周方法,也可以在一个小说上点击右键,选择检查(Chrome浏览器)或审查(Firefox浏览器),就可以得到以下内容:

在这里插入图片描述

通过观察我们可以发现,对应打开的小说的源代码,上下对比可以考到每个小说的所有内容都在一个div里面,所以我们只需获得这些div就可以得到网址了;

    # 获得网页源码
    html = requests.get(url=first_url,headers=head)
    # 把我们使用的编码改成和网站相同的编码
    html.encoding = html.appare
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值