2021-5-27
Python小白的网络爬虫实战
用python获取网络小说
相关内容来自本链接
首先对于刚接触python的小白来说,直接去实战确实有点那啥,但是从字符串到浮点数的视频实在看不下去,于是找了一个比较友好的实战项目玩玩,虽然最后还是看不懂。。。
准备阶段:
- 下载安装python,熟悉他的交互界面和编辑界面(这个有点类似matlab,笑话,matlab我也不会)
- 安装requests、BeautifulSoup(如果必要,需要安装相关解析器,自行百度自行选择)
- 了解审查元素(在随便一个网页上空白处右击鼠标,找到检查,界面右侧蹦出一片代码,这些代码就是我们审查元素时要关注的内容)
爬虫第一步:获取整个网页的HTML信息(审查元素)
爬虫第二步:解析获取的信息,提取我们需要的信息
(今天的小白鼠)小说网站-笔趣看:URL:http://www.biqukan.com/
首先利用审查元素获得代码信息:
然后利用BeautifulSoup获取我们想要的信息:
为什莫最后一行有一个input()
?因为我的编译器一打开就闪退,又不想安装其他编译器,所以加一句输入就不会闪退了,不过这也不是百试百灵的,头秃!
print(texts[0].text.replace('\xa0'*8,'\n\n'))
上一句的意思是将里面的空格替换为换行
输出目录的相关链接:
最后就是整合代码,将获得内容写入文本文件存储。
完整代码请查看原帖原代码
途中遇到了许多多多多的问题,其中一个无故报错问题就是因为用了BeautifulSoup()但是没有使用lxml编译器,虽然只是waring,但是一直飘红也不好看,于是又去安装了lxml编译器。还有在打印目录的时候链接都正常,中文解析出来都是乱码,奇了怪了?
同时发现并不是所有的小说网页都能“检查”,好像只有盗版小说网站可以这样,所以猜想,其他正版或者比较好的网站有一层加密保护?那怎末办呀,有空了继续探究吧!