python晋江爬虫_python爬虫之小说爬取

最新推荐文章于 2024-05-13 00:46:46 发布

weixin_39713833

最新推荐文章于 2024-05-13 00:46:46 发布

阅读量1.2k

点赞数

文章标签： python晋江爬虫

废话不多说，直接进入正题。

今天我要爬取的网站是起点中文网，内容是一部小说。

首先是引入库

from urllib.request importurlopenfrom bs4 import BeautifulSoup

然后将网址赋值

html=urlopen("http://read.qidian.com/chapter/dVQvL2RfE4I1/hJBflakKUDMex0RJOkJclQ2.html") //小说的第一章的网址

bsObj=BeautifulSoup(html) //创建beautifulsoup对象

首先尝试爬取该页的小说内容

firstChapter=bsObj.find("div",{"class","read-content"}) //find方法是beautifulsoup对象拥有的函数，print (firstChapter.read_text())

find方法也可以和正则表达式搭配使用，并且多用于图片，视频等资源的爬取

由于本次爬取内容全在一个class属性值为read-content的盒子中，所以采用了find方法，如果该网页中，文字被放在多个盒子里，则应采用findAll方法，并且返回值为一个集合，需要用循环遍历输出。

将代码整合运行，发现可以实现文章的爬取，但是现在的问题是，爬取了该小说的一章，那么，往后的几章该如何爬取呢？

由前面步骤可以得出，只要得知下一章的网址，即可进行爬取。首先，将打印文字的部分封装为函数，那么，每次取得新的地址，即可打印出对应文本

defwriteNovel(html):

最低0.47元/天解锁文章

weixin_39713833

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python晋江爬虫_python爬虫之小说爬取

废话不多说，直接进入正题。今天我要爬取的网站是起点中文网，内容是一部小说。首先是引入库from urllib.request importurlopenfrom bs4 import BeautifulSoup然后将网址赋值html=urlopen("http://read.qidian.com/chapter/dVQvL2RfE4I1/hJBflakKUDMex0RJOkJclQ2.html")...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。