Python采集--小说一键保存txt文本

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

不知道在什么时候,我们学生时代的电脑桌面上流传起了一个个TXT文本

噢~那是一本本的小说,那这究竟是怎么实现的效果呢?

就让我用文章带你实现吧~

完整源码、python资料: 点击此处跳转文末名片获取

前期准备须知:

开发环境:

  • python 3.8 运行代码

  • pycharm 2022.3 辅助敲代码

  • requests 发送请求模块

爬 :

模拟 客户端 向 服务器 发送网络请求

在日常生活当中使用的电脑 联网了 操作如果是需要联网的

作用 :

从互联网当中批量获取数据

模拟人行为操作

代码实现 基本流程:

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

采集网站:

代码展示:

导入模块

import requests
import re

网站链接由于平台原因屏蔽啦~你们可以自己添加一下噢

book_url = 'https://****.tw/book_76108/'
book_text = requests.get(book_url).text
# <dd><a href="(.*?)">.*?</a></dd>
# <dd><a href="24801063.html">第14章 寂静的春天(2)</a></dd>
url_list = re.findall('<dd><a href="(.*?)">.*?</a></dd>', book_text)
for sub_url in url_list:
    url = 'https:/***.tw/book_76108/' + sub_url

发送请求

    response = requests.get(url)

获取数据

    html_data = response.text

解析数据 提取数据

结构化数据: json数据 字符串 {"":"", "":""} 字典取值

非结构化数据: 网页源代码 xpath/css/re bs4/parsel/lxml/re....

地方找到符合规则的所有数据

    text = re.findall('<br><br>(.*?)</div>', html_data)[0]
    title = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # &nbsp; : 空格
    # <br /> : 换行 在win当中换行是\n mac \r\n
    # replace("需要被替换的内容", "替换为什么内容")
    text = title+'\n\n'+text.replace('&nbsp;', ' ').replace('<br />', '\n')
    print(text)

保存数据

a: 追加写入

w: 覆盖写入

    open(f'三体(全集).txt', mode='a', encoding='utf-8').write(text)


尾语 💝

要成功,先发疯,下定决心往前冲!

学习是需要长期坚持的,一步一个脚印地走向未来!

未来的你一定会感谢今天学习的你。

—— 心灵鸡汤

本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值