当Python爬虫遇到br标签......

本文讲述了如何使用Python爬虫抓取静态网页数据时,遇到br标签导致的换行问题。通过观察网页、请求数据、使用BeautifulSoup解析,以及对数据中的br标签进行替换,解决了文本格式问题,提供了完整的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 一、观察网页

  • 二、请求、解析数据

  • 三、问题

  • 四、问题的解决

  • 完整代码

一、观察网页

以淘股吧某博主的一篇文章为例,点进需要爬取的帖子页面(https://www.taoguba.com.cn/Article/5254382/1)。通过对跟帖翻页,发现网址变化,证明网页为静态网页。

右键“检查”,找到点击“网络”之后,选择与本帖网址后缀名相同的链接,“Crtl+F”搜索“捷荣技术这一波”,在网页中能找到此内容,验证了此网页为静态网页。

二、请求、解析数据

点击“检查”、“网路“,找到网页请求方法为GET。

找到所需要文本对应的标签和作者的id标签。

用BeautifulSoup爬取,得到输出结果。

import requests   from bs4 import BeautifulSoup   url='https://www.taoguba.com.cn/Article/5254382/1'   r=requests.get(url)   soup = BeautifulSoup(r.text,'html.parser')   print(soup.find('div',id='first').text)   

三、问题

与原贴对比能发现,原贴的文字是有换行的,但是soup.find('div',id='first').text把所有文本罗列在一起,没有换行,可读性较差。

四、问题的解决

查看网页源代码可发现,出现较多的标签<br><br/>

什么是br标签

  • 大部分HTML标签是闭合的,一个闭合的 HTML 元素通常包括:

  • 开始标签

  • 元素内容

  • 结束标签

  • 属性(可选)

例如:<title>网页标题</title><title>是开始标签,</title>是闭合标签,网页标题是元素内容。

  • 但有的HTML标签是没有结束标签的,比如br标签。

br标签的作用是在文本中换行,它与python中换行符\n作用比较相似,每一次的出现都代表一次换行。同时,它也是一个空元素(只有一个开始标签,没有结束标签,没有元素内容)。

所以,要让空行重新出现在最后的输出结果上,我们可以对requests爬取的数据先进行处理,把br标签替换为换行符/n,再用Beautifulsoup抓取”被修改“的数据内容。注意,replace只能对字符串使用,soupr都不是字符串,不能直接用于替换,故需要先得到所爬取数据的字符串,如r.text

r=requests.get(url)   text2 = r.text.replace('<br>','\n').replace('<br/>','\n')   

查看修改后的数据text2,能发现br标签已全部被替换。

接下来只需要继续用BeautifulSoup库解析处理过的text2数据,找到主贴作者的id标签进行爬取就能得到原有格式的全文。

完整代码

import requests   from bs4 import BeautifulSoup   url='https://www.taoguba.com.cn/Article/5254382/1'   r=requests.get(url)   text2 = r.text.replace('<br>','\n').replace('<br/>','\n')   soup = BeautifulSoup(text2,'html.parser')   print(soup.find('div',id='first').text)   

以上就是“当Python爬虫遇到br标签…”的全部内容,希望对你有所帮助。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

img

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

五、Python练习题

检查学习结果。

img

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

img

最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值