结合第三方模块requests，文件IO、正则表达式，通过函数封装爬虫应用采集数据

blossom.qwq

于 2024-11-23 16:08:24 发布

阅读量791

点赞数 16

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80245481/article/details/143993974

版权

'''采集爬虫目录'''
import requests
url = "https://www.jubiquge.com/14572"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0"}
# 发起伪造请求
response = requests.get(url, headers=headers)
# 设置响应编码
response.encoding = "UTF-8"
# 查看响应数据
content = response.text
# 正则提取章节名称和连接
import re
p = r'<a title="(第.*?)"\s+href="(.*?)">'
# 全部匹配的方式提取数据
chs = re.findall(p, content, re.DOTALL)
chapter = dict()
for ch in chs:
    chapter[ch[0]] = "https://www.jubiquge.com" + ch[1]
# 最终章节和链接数据
print(chapter)
# 文件IO中保存目录数据
import json

with open("chapters.txt", mode="wt", encoding="utf-8") as file:
json.dump(chapter, file)

#采集章节内容

import requests, re
import time, random
import json
# 1. 加载需要采集的目录
with open("chapters.txt", encoding="UTF-8") as file:
    chs = json.load(file)
# 2. 循环遍历，发起伪造请求
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0"
}
for title, url in chs.items():
    print(f"准备采集: {title}")
# 发起伪造请求
response = requests.get(url, headers=headers)
 # 设置编码
response.encoding = "UTF-8"
# 分析数据格式
html = response.text
print(html)
print("----------------------")
# 定义正则，匹配数据
p = r'<div id="content">(.*?)</div>'
content = re.search(p, html, re.DOTALL)
# 数据筛选
content = content.group(1).strip()
# 数据清洗
p2 = r'<p>(.*?)</p>'
content = re.findall(p2, content, re.DOTALL)
content = "\n".join(content)
print(content)
with open("逆天神妃.txt", mode="at", encoding="utf-8") as file:
# 保存到文件
    file.write("\n\n-----------------------\n\n")
    file.write("\n\n" + title + "\n\n")  # 标题
    file.write(content)  # 内容
# 模拟用户请求，每次请求完成休眠3~5S
time.sleep(random.randint(3, 5))
print(f"{title} 章节采集完成")

博客等级

码龄2年

13
原创

80
点赞

90
收藏

50
粉丝

关注

私信

热门文章

上一篇：: python如何利用sys time模块实现网络探测

下一篇：: 需求：某公司因为网站服务经常出现异常，需要你开发一个脚本对服务器上的服务进行监控；检测目标服务器上是否存在nginx软件(提供web服务的软件)，如果不存在则安装(服务器可能的操作系统Ubuntu24

最新评论

mysql练习
川trans: 这么简单还发出来干嘛，入机
python如何利用sys time模块实现网络探测
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
VMware-workstation-17.5.0安装流程
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
VMware-workstation-17.5.0安装流程
CSDN-Ada助手: 恭喜您发布了第四篇博客“VMware-workstation-17.5.0安装流程”，感谢您分享这一有用的内容！希望您能继续坚持创作，不断提升自己的技术水平。下一步建议可以深入探讨VMware-workstation-17.5.0的高级用法或者与其他虚拟化软件的比较分析，让读者能够更全面地了解这个主题。期待您更多精彩的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
网络课程基础
CSDN-Ada助手: 这篇博客对网络课程的基础知识进行了介绍，内容清晰易懂，对于想要了解网络课程的朋友来说非常有帮助。希望作者能够继续分享更多关于网络课程的知识，可以扩展一些关于在线教育平台的比较分析，以及如何选择适合自己的网络课程的建议，这样会更加全面地帮助读者。另外，也可以分享一些关于网络课程设计和教学方法的内容，这些都是非常有价值的知识。期待您的更多精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。