爬虫爬取网页后的文本内容经中文分词后在词袋模型内出现了无用词u3000,发现这是全角空格而不是实际文本内容,希望在词袋模型中去掉u3000。
在分词前对数据进行处理,增加
text=text.replace(u'\u3000',u'')
语句
重新运行则成功去掉u3000了。
爬虫爬取网页后的文本内容经中文分词后在词袋模型内出现了无用词u3000,发现这是全角空格而不是实际文本内容,希望在词袋模型中去掉u3000。
在分词前对数据进行处理,增加
text=text.replace(u'\u3000',u'')
语句
重新运行则成功去掉u3000了。