python爬虫怎么爬小说_python爬虫:定向爬取小说

01

注:本文利用requests库和BeautifulSoup库来爬取笔趣看中的小说‘诛仙’

02

首先,你要安装这两个python的第三方库;安装方法如下:

requests --> pip install requests

BeautifulSoup --> pip install bs4

现在开始进入正文:获取小说章节的链接(F12查看链接被存放在哪个标签当中)

上述当中,我们可以看到章节的链接和名字都存放在 标签中的 标签中;但是所有的 标签又只存放在一个 标签中,故我们要找的是 标签;然后利用迭代把 标签找出来。

代码如下:

当我们把网页中的链接解析出来后,就开始获取章节的正文了;

但是上述代码只是用来解析网页,不能用来爬取网页,下面贴出可以爬取一部小说的代码:

if __name__=="__main__":

main()

到此已经结束了,该爬取过程中重要的是掌握提取网页的方法!!!

03

使用requests库会返回Requests对象和Response对象

requests简单用法:

1、requests.get():#获取HTML网页的主要方法,对应于HTTP的GET

2、requests.post():#向HTML网页提交POST的请求方法

3、response.status_code:#HTTP请求返回的状态

4、response.text:#HTTP响应内容的字符串形式

5、r.apparent_encoding:#从内容中分析出的响应内容编码形式(分析内容得出编码形式)

01

世界上只有同类才可以做朋友,志不同道不合的人往往只能在某个猎奇的时间里做一阵子开心的同伴。被时间的洪水淘过,最终仍然堆在一起的,一定是同样材质的小石头。

04

整体思路:

1、访问网页,查看网页结构

2、提取章节链接并存到列表当中

3、从列表中取出链接并进行访问,然后获取出正文的内容

4、把正文存储到文件中

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值