常用的文本清洗与预处理步骤一般如下:
一、去除数字:
数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。
【我觉得数字对于语义的理解还是有一定作用的,将所有数字(阿拉伯数字和单词)更换为一个标注<num>会不会更好?】
二、去除链接地址:
链接地址显然也需要在进一步分析前被去掉ÿ
常用的文本清洗与预处理步骤一般如下:
一、去除数字:
数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。
【我觉得数字对于语义的理解还是有一定作用的,将所有数字(阿拉伯数字和单词)更换为一个标注<num>会不会更好?】
二、去除链接地址:
链接地址显然也需要在进一步分析前被去掉ÿ