爬虫解析库Beautifulsoup爬取章节小说

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过我们喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮我们节省数小时甚至数天的工作时间,因为比较流行,在解析网页的时候,操作起来也很简单和高效
以下以一个小小的案例来演示爬取小说章节

代码块


# 导入模块
import requests
from bs4 import BeautifulSoup

# 一章节的Url
url = 'http://www.quanshuwang.com/book/0/567/11135580.html'
res = requests.get(url)

# 因为网站的源代码编码是gbk,所以使用
res.encoding = 'gbk'

# 获取前端页面
html = res.text

# 实例化beautifulsoup()对象,并且传入html,使用lxml解析器
soup = BeautifulSoup(html,'lxml')

# 通过观察网页源代码发现,存在一个唯一的id属性,便可直接定位到元素,find_all()返回的是一个列表,索引取值
div = soup.find_all(attrs={'id':'content'})[0]

# 字符串拼接,需要使用strings,因为存在多个节点,string只能取出节点中含有一个字符串的标签,显然这里不仅仅只含有一个,
content = ''.join([i for i in div.strings][1:-1])       # 这里的[1:-1]作用是取出列表中的内容,而不要开头和结尾的style
print(con

结果显示
在这里插入图片描述

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值