Python 爬取起点的小说(非vip)

                  Python 爬取起点的小说(非vip)

起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就是ajax,需要抓包分析网址,由于我没有VIP账号,所以只能爬取非VIP章节,这个爬虫就以爬取一部小说 冒牌大英雄为例,首先,我们可以打开冒牌大英雄所在的网址,也就是 以https://book.qidian.com/info/131957 这个网址为起点,依次取出各个章节的网址,在取出网址的同时,选取文章的标题和内容,写入本地硬盘,每一个章节为一个文件,保存格式为html格式,技术选型方面,使用第三方库requests。

爬取流程:起始网址https://book.qidian.com/info/131957 的网页源代码内带有所有章节的链接网址,首先,解析起始网址,取得起始网址源代码,编写正则提取章节链接,然后循环读取章节链接,正则提取标题和内容,每次循环,将标题加时间戳设为文件名称,内容写入文件中,爬虫就算结束了。下面。上代码:

import time
import requests
import re
url='https://book.qidian.com/info/131957'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
    'accept-encoding': 'gzip, deflate, sdch, br',
    'accept-language': 'zh-CN,zh;q=0.8'
}
data=requests.get(url,headers=headers).text
pat=' <li data-rid=.*?><a href="(.*?)" target="_blank"'
all_url=re.compile(pat,re.S).findall(data)
try:
    for i in all_url:
        thisurl='https:'+str(i)
        print(thisurl)
        thisdata=requests.get(thisurl,headers=headers).text
        pat_content='<div class="read-content j_readContent">.*?<p>(.*?)</div>.*?<div class="admire-wrap">'
        pat_title='<span class="content-wrap">(.*?)</span>.*?</h3>'
        thistitle=re.compile(pat_title,re.S).findall(thisdata)
        title=str(thistitle[0:-1])
        content=re.compile(pat_content,re.S).findall(thisdata)
        file = open(r'e:\\bbbbb\\' + str(thistitle) + '_' + str(time.time()) + '.html', 'w', encoding='utf-8')
        file.write(str(content))
        file.close()
except Exception as e:
    print(e)

 

起点中文网是一个提供在线阅读小说的平台,但其中的VIP章节需要付费才能访问。尝试使用爬虫程序爬取VIP章节时,可能会遇到一些问题。根据引用,在爬取VIP章节时,花费了0.27大洋后发现爬取失败,这说明平台可能采取了一些反爬虫的措施。引用中提到了一种可能的反爬虫手段:服务器会验证用户是否已经付费,并根据结果返回相应的章节信息。如果用户没有付费,则可能只能获取到试读的信息。 要绕过起点中文网的VIP章节爬取限制,一种可行的方法是模拟用户登录并付费。首先,需要模拟发送一个登录请求,获取登录后的cookie等信息。然后,通过付费接口进行模拟付费操作,获取付费后的权限信息。最后,可以通过发送请求获取全部章节内容。但请注意,这种方法涉及模拟用户行为和支付操作,务必遵守平台的规定和法律法规。 另外,需要注意的是,尝试绕过平台的反爬虫措施可能违反平台的使用协议,甚至触犯法律。在进行任何爬取操作前,请务必确认自己的行为是否符合法律和道德的要求,并遵守平台的规定和服务条款。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [python 爬取起点小说vip章节(失败)](https://blog.csdn.net/weixin_39786141/article/details/110827031)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晚风_END

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值