使用 python3.x爬取《唐砖》全本txt小说

本文介绍了如何使用Python3.x通过爬虫技术抓取《唐砖》小说全本,并将其生成为txt文件。首先,文章讲解了爬取博客主页信息并生成HTML文件的步骤,然后详细阐述了如何安装和使用requests库获取网页数据,接着介绍了利用beautifulsoup4解析网页数据,抓取小说的章节目录和每章内容。最后,作者分享了在爬取过程中遇到的问题及解决办法,成功生成了小说的txt格式文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近有部很火的网剧《唐砖》,虽说编剧改了很多地方,但是单单从电视剧的角度来讲,还是很不错的,也看出了剧组和演员的用心,给一个大大的赞;于是今天心血来潮,想下本原著看看,找了个笔趣看的小说网站,发现没有小说的下载地址,这就尴尬了,所以准备用python爬一下,生成一个 " 唐砖.txt " 文件传手机上。

 

1. 爬取博客主页信息,生成一个网页HTML文件 (预热)

import urllib.request;

page = urllib.request.urlopen('https://blog.csdn.net/wu5229485'); 
htmlcode = page.read(); 

pageFile = open('pageCode.html','wb+');  # 以写的方式打开pageCode.html
pageFile.write(htmlcode); # 写入
pageFile.close(); # 关 
print('OK!');

2.安装pip工具

解决方案:https://jingyan.baidu.com/article/ff42efa9d630e5c19e220207.html

3.使用requests获取网页数据

(1)安装requests

pip install requests

中文文档:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

(2)使用requests获取网页HTML结构数据

import requests

if __name__ == '__main__':
    target = "http://blog.sina.com.cn/riversfrog"
    req = requests.get(target)
    req.encoding = 
### PyCharm 打开文件显示全的解决方案 当遇到PyCharm打开文件显示全的情况时,可以尝试以下几种方法来解决问题。 #### 方法一:清理缓存并重启IDE 有时IDE内部缓存可能导致文件加载异常。通过清除缓存再启动程序能够有效改善此状况。具体操作路径为`File -> Invalidate Caches / Restart...`,之后按照提示完成相应动作即可[^1]。 #### 方法二:调整编辑器字体设置 如果是因为字体原因造成的内容显示问题,则可以通过修改编辑区内的文字样式来进行修复。进入`Settings/Preferences | Editor | Font`选项卡内更改合适的字号大小以及启用抗锯齿功能等参数配置[^2]。 #### 方法三:检查项目结构配置 对于某些特定场景下的源码视图缺失现象,可能是由于当前工作空间未能正确识别全部模块所引起。此时应该核查Project Structure的Content Roots设定项是否涵盖了整个工程根目录;必要时可手动添加遗漏部分,并保存变更生效[^3]。 ```python # 示例代码用于展示如何获取当前项目的根路径,在实际应用中可根据需求调用该函数辅助排查问题 import os def get_project_root(): current_file = os.path.abspath(__file__) project_dir = os.path.dirname(current_file) while not os.path.exists(os.path.join(project_dir, '.idea')): parent_dir = os.path.dirname(project_dir) if parent_dir == project_dir: break project_dir = parent_dir return project_dir print(f"Current Project Root Directory is {get_project_root()}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我的小英短

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值