【爬虫笔记】关于 \u200b \xa0 \u3000等特殊字符

本文记录了在网页爬虫中遇到u200bxa0u3000等特殊字符的问题及解决方案。介绍了使用split、replace方法以及两者的结合来去除或处理这些不可见字符,旨在方便回顾和帮助他人。
摘要由CSDN通过智能技术生成

在进行网页爬虫分析时,遇到了一些特殊字符,通过网络搜索找到了解决方法,所以利用这篇博文将遇到的问题以及解决方法记录下来,方便回顾,也希望这篇博文能够帮助到大家。

 \u200b \xa0 \u3000等特殊字符

这些特殊字符通常不在ASCII可见字符范围内,因此我们在浏览网页时看不到这些字符,但是在分析网页源码时会遇到。

方法一,利用split方法

处理这些字符最简单的方法是利用split方法去除。

参考博文:https://blog.csdn.net/wangbowj123/article/details/78061618

关键程序段(来自参考博文):

>>> s
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'
>>> out = "".join(s.split())
>>> out
'T-shirt短袖圆领衫,体恤衫'

方法二,利用replace方法

使用split方法进行特殊字符的去除有个坏处就是原文中的空格与换行也会一并删除,原因是“split方法中不带参数时,表示分割所有换行符、制表符、空格”。如果文字中只有一两种特殊字符,也可以利用replace方法进行去除。

参考博文:https://blog.csdn.net/thewindkee/article/details/

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值