一开始我是将网页中的unicode转为utf-8后再用中文utf-8去掉中文,之后就报错了
代码大概就是这么写
Text = soup.select('.job_bt')[0].text.replace('\n','').encode('utf-8').lstrip('职位描述:')
先encode('utf-8') 转编码为utf-8 这么做的原因是我后面要去掉里面的字符 “”职位面熟:”
后面写入df.to_excel(Text) 就直接报错了
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb8 in position 0: invalid start byte
可后面就直接报错
后来尝试百度下,按照别人教的再转为unicode
unicode(Text,errors='ignore'))
写入虽然成功了,但是乱码了
解决方法:
直接不转utf-8 在unicode的接触上去掉字符就解决了
Text = soup.select('.job_bt')[0].text.replace('\n','').lstrip(u'职位描述:')