小白初入爬虫的实例,爬取小说的某一章

最新推荐文章于 2024-04-18 13:54:36 发布

#狼大大

最新推荐文章于 2024-04-18 13:54:36 发布

阅读量1.2k

点赞数 4

分类专栏： python自学之路文章标签： python

本文链接：https://blog.csdn.net/donghengzi1/article/details/112472142

版权

爬取纵横中文网的某篇小说的第一章内容

本来本人在努力做课设，突然打开某一python教程，发现挺有意思的，就跟着试了一试，对代码进行了修改，自己尝试爬取了一章小说！
本人也算是小白，刚入门，！对于代码理解不深入，可以保证的是代码尽量详细和正确！写下自己的心路历程，希望给大家带来帮助。

(个人浅显理解爬虫就是利用程序爬取网络页面的信息，它是根据网页地址(URL)爬取网页内容，而网页地址(URL)就是我们在浏览器中输入的网站链接。比如：https://www.baidu.com/，它就是一个URL。)

工具：
1.python编译器(本人用的visual studio)，直接官网安装就行了，很简单
2.需要导入第三方包：numpy，requests，beautifulsoup4，直接pip Install +安装包名字就行了

实现：
本文爬取的是国医无双这篇小说的第一章：不做舔狗(hhhh随便找的一章，没想到题目饱含哲理)，首先找到它对应的URL，也就是网址链接，http://book.zongheng.com/chapter/963767/60436403.html
如下图标注。打开网址先放在那里，一会还有用！

代码实现
爬虫大致可以分为两步，首先是获取网页的信息；然后再解析网页信息，选择我们需要的内容。
我们要利用requests这个包去获取网页信息。

#导入requests包
import requests
#下边是我们要爬取的网页url ，就是不做舔狗这章的网址
target= 'http://book.zongheng.com/chapter/963767/60436403.html'
req = requests.get(url=target)   # 请求网页响应
htlm = req.text         #  获得网页的文本信息
print(htlm)

#可以打印出来看看是什么，当然，哈哈哈我也看不懂，但是可以知道，文字就隐藏在这个页面文本信息(htlm)中！

最低0.47元/天解锁文章

#狼大大

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
小白初入爬虫的实例,爬取小说的某一章

爬取纵横中文网的某篇小说的第一章内容本来本人在努力做课设，突然打开某一python教程，发现挺有意思的，就跟着试了一试，对代码进行了修改，自己尝试爬取了一章小说！本人也算是小白，刚入门，！对于代码理解不深入，可以保证的是代码尽量详细和正确！写下自己的心路历程，希望给大家带来帮助。(个人浅显理解爬虫就是利用程序爬取网络页面的信息，它是根据网页地址(URL)爬取网页内容，而网页地址(URL)就是我们在浏览器中输入的网站链接。比如：https://www.baidu.com/，它就是一个URL。)工具：
复制链接

扫一扫