最近好几个项目的实战都遇到了这个问题,查阅了不少资料,博客,一开始用到的解决方法是:
demo = open(r"demo.txt", "r", encoding="utf-8")
soup = BeautifulSoup(demo.read(), 'html.parser')
html_data = soup.find('div', id="J_goodsList")
采用最原始的写入文件,重新读取文件
后面发现了个更简便的方法:
text.replace('\xaf','')
让pycharm在输出遇到改字符的时候替换为空,以解决该问题
但是昨天我遇到了一个html原码里面竟然存在多个这样的字符,这可把我头疼的啊,
于是我开始尝试使用捕获:
try:
print(text.replace('\xaf',''))
except UnicodeEncodeError:
continue
虽然解决问题了但是发现这样少输出了不少东西,就很难受,今天早上查阅了更多的资料和博客,发现有了两全其美的方法:
在pycharm的文件编码里可以设置,给自己的无语操作给整笑了,就这吧