如果你的爬虫是使用 Python 写的,你可以使用 Python 的 Beautiful Soup 库来处理 HTML 和 XML。你可以在你的代码中这样使用 Beautiful Soup 来处理换行符:
from bs4 import BeautifulSoup
html = '<html><body><p>Hello, world!</p><br /><p>Goodbye, world!</p></body></html>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
print(text)