可以使用网页爬虫框架如 BeautifulSoup 或 PyQuery 来提取 HTML 元素中的中文。例如,使用 BeautifulSoup,可以这样提取文本:
from bs4 import BeautifulSouphtml = '<p>这是一段中文文本</p>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.find('p').get_text()
print(text)
输出:
这是一段中文文本
同样可以使用正则表达式来匹配中文字符,具体的写法可以看正则表达式教程