- 博客(2)
- 收藏
- 关注
转载 主题模型分析
1文本去重 编辑距离去重是一种字符串之间的相似度计算方法。具体来说,给定两个字符串,将A转为B所需要的删除、插入、替换等步骤的数量叫做从A到B的编辑路径。而将最短的编辑路径称为编辑距离。 例如“还没正式使用,不知道怎样,但安装的材料费确实有点高,380”与“还没使用,不知道质量如何,但安装的材料费确实贵,380”的编辑距离是9。 首先,针对重复的评论进行去重操作,也就是删除重复的评论语句。
2017-04-14 09:41:28 4182
转载 自然语言处理(1)
1、数据预处理 1.1文本去重 编辑距离去重是一种字符串之间的相似度计算方法。具体来说,给定两个字符串,将A转为B所需要的删除、插入、替换等步骤的数量叫做从A到B的编辑路径。而将最短的编辑路径称为编辑距离。 例如“还没正式使用,不知道怎样,但安装的材料费确实有点高,380”与“还没使用,不知道质量如何,但安装的材料费确实贵,380”的编辑距离是9。 首先,针对重复的评论进行去重操作,也就是
2017-04-14 08:33:14 422
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人