前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~!
不知道在什么时候,我们学生时代的电脑桌面上流传起了一个个TXT文本
噢~那是一本本的小说,那这究竟是怎么实现的效果呢?
就让我用文章带你实现吧~
完整源码、python资料: 点击此处跳转文末名片获取
前期准备须知:
开发环境:
-
python 3.8 运行代码
-
pycharm 2022.3 辅助敲代码
-
requests 发送请求模块
爬 :
模拟 客户端 向 服务器 发送网络请求
在日常生活当中使用的电脑 联网了 操作如果是需要联网的
作用 :
从互联网当中批量获取数据
模拟人行为操作
代码实现 基本流程:
-
发送请求
-
获取数据
-
解析数据
-
保存数据
采集网站:
代码展示:
导入模块
import requests
import re
网站链接由于平台原因屏蔽啦~你们可以自己添加一下噢
book_url = 'https://****.tw/book_76108/'
book_text = requests.get(book_url).text
# <dd><a href="(.*?)">.*?</a></dd>
# <dd><a href="24801063.html">第14章 寂静的春天(2)</a></dd>
url_list = re.findall('<dd><a href="(.*?)">.*?</a></dd>', book_text)
for sub_url in url_list:
url = 'https:/***.tw/book_76108/' + sub_url
发送请求
response = requests.get(url)
获取数据
html_data = response.text
解析数据 提取数据
结构化数据: json数据 字符串 {"":"", "":""}
字典取值
非结构化数据: 网页源代码 xpath/css/re
bs4/parsel/lxml/re....
从地方找到符合规则的所有数据
text = re.findall('<br><br>(.*?)</div>', html_data)[0]
title = re.findall('<h1>(.*?)</h1>', html_data)[0]
# : 空格
# <br /> : 换行 在win当中换行是\n mac \r\n
# replace("需要被替换的内容", "替换为什么内容")
text = title+'\n\n'+text.replace(' ', ' ').replace('<br />', '\n')
print(text)
保存数据
a:
追加写入
w:
覆盖写入
open(f'三体(全集).txt', mode='a', encoding='utf-8').write(text)
尾语 💝
要成功,先发疯,下定决心往前冲!
学习是需要长期坚持的,一步一个脚印地走向未来!
未来的你一定会感谢今天学习的你。
—— 心灵鸡汤
本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝