beautifulsoup4 去除各种特殊字符

最新推荐文章于 2023-12-28 11:03:59 发布

ROSE2501ty

最新推荐文章于 2023-12-28 11:03:59 发布

阅读量6.4k

点赞数 4

文章标签： Python 爬虫 BeautifulSoup4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41343377/article/details/88384122

版权

在使用Python爬虫的时候，对于 html 中存在很多空行，空格的处理问题。
很多文章是存 word 中直接复制到到网页上的，对于这种方式编辑的 html 结构可能比较混乱。如何净化或者说格式化这种 html，快速过滤出换行符、空格、中文空格等。

在jupyter notebook里面，以下为步骤：

1.首先 import re

2.其次 a = re.compile(r'\n|&nbsp|\xa0|\\xa0|\u3000|\\u3000|\\u0020|\u0020|\t|\r')
clean_str = a.sub('', str)

其中 str为你需要去除特殊字符的字符串，clean_str 为清除特殊字符后得到的字符串。

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
beautifulsoup4 去除各种特殊字符

在使用Python爬虫的时候，对于 html 中存在很多空行，空格的处理问题。很多文章是存 word 中直接复制到到网页上的，对于这种方式编辑的 html 结构可能比较混乱。如何净化或者说格式化这种 html，快速过滤出换行符、空格、中文空格等。在jupyter notebook里面，以下为步骤：1.首先 import re2.其次a = re.comp...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。