网页标题乱码处理:
源码: import re import requests import re import requests # 发起网络请求获取网页内容 # url = "https://example.com" url = "https://www.eastmoney.com/" response = requests.get(url) html_content = response.text # 使用正则表达式提取需要的数据 pattern = r"<title>(.*?)</title>" match = re.search(pattern, html_content) if match: title = match.group(1) print("网页标题:", title) else: print("未找到网页标题") # 可以根据具体需求,编写适合的正则表达式来提取其他数据
运行结果:
处理方法:
增加一行代码:
response.encoding = 'utf-8' # 或其他正确的编码方式
修改后的代码:
import re import requests import re import requests # 发起网络请求获取网页内容 # url = "https://example.com" url = "https://www.eastmoney.com/" response = requests.get(url) response.encoding = 'utf-8' # 或其他正确的编码方式 html_content = response.text # 使用正则表达式提取需要的数据 pattern = r"<title>(.*?)</title>" match = re.search(pattern, html_content) if match: title = match.group(1) print("网页标题:", title) else: print("未找到网页标题") # 可以根据具体需求,编写适合的正则表达式来提取其他数据
运行结果: