【爬虫笔记】关于 \u200b \xa0 \u3000等特殊字符

最新推荐文章于 2024-09-12 12:45:38 发布

逸笔1B

最新推荐文章于 2024-09-12 12:45:38 发布

阅读量1.1k

点赞数

分类专栏：爬虫 python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/csdn1b/article/details/119670059

版权

本文记录了在网页爬虫中遇到u200bxa0u3000等特殊字符的问题及解决方案。介绍了使用split、replace方法以及两者的结合来去除或处理这些不可见字符，旨在方便回顾和帮助他人。

摘要由CSDN通过智能技术生成

在进行网页爬虫分析时，遇到了一些特殊字符，通过网络搜索找到了解决方法，所以利用这篇博文将遇到的问题以及解决方法记录下来，方便回顾，也希望这篇博文能够帮助到大家。

\u200b \xa0 \u3000等特殊字符

这些特殊字符通常不在ASCII可见字符范围内，因此我们在浏览网页时看不到这些字符，但是在分析网页源码时会遇到。

处理这些字符最简单的方法是利用split方法去除。

关键程序段（来自参考博文）：

>>> s
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'
>>> out = "".join(s.split())
>>> out
'T-shirt短袖圆领衫,体恤衫'

使用split方法进行特殊字符的去除有个坏处就是原文中的空格与换行也会一并删除，原因是“split方法中不带参数时，表示分割所有换行符、制表符、空格”。如果文字中只有一两种特殊字符，也可以利用replace方法进行去除。

关注

专栏目录