beautifulsoup4 去除各种特殊字符

       在使用Python爬虫的时候,对于 html 中存在很多空行,空格的处理问题。
       很多文章是存 word 中直接复制到到网页上的,对于这种方式编辑的 html 结构可能比较混乱。如何净化或者说格式化这种 html,快速过滤出换行符、空格、中文空格等。

在jupyter notebook里面,以下为步骤:

1.首先 import re

2.其次 a = re.compile(r'\n|&nbsp|\xa0|\\xa0|\u3000|\\u3000|\\u0020|\u0020|\t|\r')
        clean_str = a.sub('', str)

其中 str为你需要去除特殊字符的字符串,clean_str 为清除特殊字符后得到的字符串。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
可以使用 Python 的 `requests` 库来发送 HTTP 请求获取 HTML 页面的源代码,并使用 `BeautifulSoup` 库来解析 HTML 页面。在将 HTML 代码存储到数据库中之前,可以使用正则表达式或其他方法去除其中的特殊字符。 以下是一个简单的示例代码,演示了如何使用 `requests` 和 `BeautifulSoup` 库获取 HTML 页面的源代码,并使用正则表达式去除其中的特殊字符: ```python import requests import re from bs4 import BeautifulSoup import pymysql # 发送 HTTP 请求获取 HTML 页面 url = 'https://www.example.com' response = requests.get(url) # 使用 BeautifulSoup 解析 HTML 页面 soup = BeautifulSoup(response.text, 'html.parser') # 获取页面标题和正文内容 title = soup.title.text content = str(soup.body) # 去除 HTML 标签和特殊字符 cleanr = re.compile('<.*?>') content = re.sub(cleanr, '', content) content = content.replace('\n', '').replace('\r', '').replace('\t', '') # 将标题和内容存储到数据库中 conn = pymysql.connect(host='localhost', user='root', password='password', db='test', charset='utf8mb4') cursor = conn.cursor() sql = "INSERT INTO pages (title, content) VALUES (%s, %s)" cursor.execute(sql, (title, content)) conn.commit() cursor.close() conn.close() ``` 在上面的代码中,首先使用 `requests` 库发送 HTTP 请求获取 HTML 页面的源代码。然后,使用 `BeautifulSoup` 库解析 HTML 页面,获取页面的标题和正文内容。接着,使用正则表达式去除 HTML 标签和特殊字符,最后将标题和内容存储到数据库中。 需要注意的是,在存储 HTML 代码到数据库之前,应该先去除其中的特殊字符,以避免存储不必要的数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值