最近在学习Python爬虫时,遇到了 字符串,在网页中表示空格,字符为\xa0,当我想要把空格转换为换行时,发现在使用replace(’\xa0’ *8,’\n’)时会把每个文本字符串的第一个字截取掉,查阅并尝试后发现使用split()可以完美解决:
htmlUrl = 'http://www.biqukan.com/0_178/15661946.html'
res = requests.get(url = htmlUrl)
htmlText = res.text
bf = bs4.BeautifulSoup(htmlText,'html.parser')
bfText = bf.find_all('div',id = 'content',class_ = 'showtxt')
#按空白符分割后根据换行符拼接
print('\n'.join(bfText[0].text.split()))