用了strip(),结果还是有空行出现,怎么解决?

resultData['summary'] = soup.find('span',property='v:summary').get_text().strip()
爬取的评论有两段内容,两段内容之间用br隔开,即使用了strip(),结果还是有空行出现,怎么解决?

  • 如果 `strip()` 方法仍然无法去除空行,可能是因为爬取的评论内容中包含了其他不可见字符或空格。你可以尝试使用正则表达式来去除空行和其他不可见字符。

    ```python
    import re

    # 使用正则表达式替换空行和其他不可见字符

  • resultData['summary'] = re.sub(r'\s+', '', soup.find('span', property='v:summary').get_text())
    

    这段代码使用了 `re.sub()` 方法,将所有的空白字符(包括空格、制表符、换行符等)替换为空字符串,从而去除空行和其他不可见字符。这样,获取到的评论内容中的空行将会被去除掉。

    当我们使用 `re.sub(pattern, repl, string)` 方法时,它会在字符串 `string` 中搜索与正则表达式 `pattern` 匹配的部分,并将其替换为字符串 `repl`。

    在这个特定的正则表达式中,我们使用了 `\s+` 来表示匹配一个或多个空白字符。`\s` 是一个特殊的字符类,代表空白字符,包括空格、制表符、换行符等。而 `+` 是一个量词,表示匹配一个或多个前面的表达式。

    因此,`re.sub(r'\s+', '', string)` 的作用是将字符串 `string` 中的所有连续的空白字符替换为空字符串,从而去除空行和其他不可见字符。

    举个例子,假设 `string = "Hello\n\n\t   World"`,其中包含了两个空行和多个空格。当我们使用 `re.sub(r'\s+', '', string)` 时,它会将连续的空白字符替换为空字符串,得到的结果是 `"HelloWorld"`,去除了空行和空格。

  • `re.sub()` 是 Python 中 re 模块提供的一个方法,用于进行正则表达式的替换操作。它接受三个参数:pattern、replacement 和 string。

    - `pattern` 是一个正则表达式,用于匹配需要被替换的内容。
    - `replacement` 是替换的字符串,用于替换匹配到的内容。
    - `string` 是要进行替换操作的原始字符串。

    `re.sub()` 方法会在 `string` 中搜索与 `pattern` 匹配的内容,并将其替换为 `replacement`。它返回一个新的字符串,其中所有匹配到的内容都被替换。

    例如,使用 `re.sub()` 可以将一个字符串中的所有数字替换为字母:

    ```python
    import re

    string = "I have 123 apples and 456 bananas."
    new_string = re.sub(r'\d+', 'X', string)
    print(new_string)
    ```

    输出结果为:"I have X apples and X bananas."

    希望这个解释能帮助你更好地理解这个正则表达式的作用。

  • 如果爬取的评论内容中含有 `<br>` 标签来表示换行,可以使用 `replace()` 方法将 `<br>` 替换为空字符串,从而去除空行。修改后的代码如下:

    ```python
    resultData['summary'] = soup.find('span', property='v:summary').get_text().strip().replace('<br>', '')
    ```

    这样,获取到的评论内容中的空行将会被去除掉。

  • 可以尝试使用`splitlines()`方法来去除空行。这个方法会将字符串分割成行,并且会自动去除每行的空白字符。修改后的代码如下:

    ```python
    resultData['summary'] = soup.find('span', property='v:summary').get_text().strip().splitlines()
    ```

    这样,获取到的评论内容将会是一个列表,其中每个元素代表一段评论,不再包含空行。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值