1.小写转换和标点移除,视具体情况而定。
2.将每个句子拆分成一系列的单词。
3.清除停用词,停用词也是视具体情况而定。
4.将单词还原为原来的表示(词干化)。
自然语言处理中数据清理的步骤
最新推荐文章于 2024-07-09 17:20:03 发布
1.小写转换和标点移除,视具体情况而定。
2.将每个句子拆分成一系列的单词。
3.清除停用词,停用词也是视具体情况而定。
4.将单词还原为原来的表示(词干化)。