2021-05-27

世界顶尖抖腿设计师

于 2021-05-27 18:50:13 发布

阅读量59

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45056314/article/details/117334371

版权

2021-5-27

Python小白的网络爬虫实战

用python获取网络小说
相关内容来自本链接
首先对于刚接触python的小白来说，直接去实战确实有点那啥，但是从字符串到浮点数的视频实在看不下去，于是找了一个比较友好的实战项目玩玩，虽然最后还是看不懂。。。

准备阶段：

下载安装python，熟悉他的交互界面和编辑界面（这个有点类似matlab，笑话，matlab我也不会）
安装requests、BeautifulSoup(如果必要，需要安装相关解析器，自行百度自行选择)
了解审查元素（在随便一个网页上空白处右击鼠标，找到检查，界面右侧蹦出一片代码，这些代码就是我们审查元素时要关注的内容）

爬虫第一步：获取整个网页的HTML信息（审查元素）
爬虫第二步：解析获取的信息，提取我们需要的信息

（今天的小白鼠）小说网站-笔趣看：URL：http://www.biqukan.com/
首先利用审查元素获得代码信息：在这里插入图片描述
然后利用BeautifulSoup获取我们想要的信息：
为什莫最后一行有一个input()？因为我的编译器一打开就闪退，又不想安装其他编译器，所以加一句输入就不会闪退了，不过这也不是百试百灵的，头秃！

 print(texts[0].text.replace('\xa0'*8,'\n\n'))

上一句的意思是将里面的空格替换为换行

输出目录的相关链接：
在这里插入图片描述
最后就是整合代码，将获得内容写入文本文件存储。
完整代码请查看原帖原代码

途中遇到了许多多多多的问题，其中一个无故报错问题就是因为用了BeautifulSoup（）但是没有使用lxml编译器，虽然只是waring，但是一直飘红也不好看，于是又去安装了lxml编译器。还有在打印目录的时候链接都正常，中文解析出来都是乱码，奇了怪了？

同时发现并不是所有的小说网页都能“检查”，好像只有盗版小说网站可以这样，所以猜想，其他正版或者比较好的网站有一层加密保护？那怎末办呀，有空了继续探究吧！

世界顶尖抖腿设计师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
2021-05-27

2021-5-27Python小白的网络爬虫实战用python获取网络小说相关内容来自本链接首先对于刚接触python的小白来说，直接去实战确实有点那啥，但是从字符串到浮点数的视频实在看不下去，于是找了一个比较友好的实战项目玩玩，虽然最后还是看不懂。。。准备阶段：下载安装python，熟悉他的交互界面和编辑界面（这个有点类似matlab，笑话，matlab我也不会）安装requests、BeautifulSoup(如果必要，需要安装相关解析器，自行百度自行选择)了解审查元素（在随便一个网页
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

世界顶尖抖腿设计师 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。