在nlp任务,肯定会遇到很多无意义的词和句子
对于词,我们可以用停用词表去除
对于句子,我们该怎样去掉呢
- 首先自身标注一些数据,如url,还有一些其他无意义的句子
- 使用无监督模型将句子转换成向量
- 当文本输入时,去掉与这些句子相似的句子
当然,这样的计算开销可能变得很大,必要的时候我们可以使用lsh或者Faiss来减少计算开销
在nlp任务,肯定会遇到很多无意义的词和句子
对于词,我们可以用停用词表去除
对于句子,我们该怎样去掉呢
当然,这样的计算开销可能变得很大,必要的时候我们可以使用lsh或者Faiss来减少计算开销