自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

转载 主题模型分析

1文本去重 编辑距离去重是一种字符串之间的相似度计算方法。具体来说,给定两个字符串,将A转为B所需要的删除、插入、替换等步骤的数量叫做从A到B的编辑路径。而将最短的编辑路径称为编辑距离。 例如“还没正式使用,不知道怎样,但安装的材料费确实有点高,380”与“还没使用,不知道质量如何,但安装的材料费确实贵,380”的编辑距离是9。 首先,针对重复的评论进行去重操作,也就是删除重复的评论语句。

2017-04-14 09:41:28 4182

转载 自然语言处理(1)

1、数据预处理 1.1文本去重 编辑距离去重是一种字符串之间的相似度计算方法。具体来说,给定两个字符串,将A转为B所需要的删除、插入、替换等步骤的数量叫做从A到B的编辑路径。而将最短的编辑路径称为编辑距离。 例如“还没正式使用,不知道怎样,但安装的材料费确实有点高,380”与“还没使用,不知道质量如何,但安装的材料费确实贵,380”的编辑距离是9。 首先,针对重复的评论进行去重操作,也就是

2017-04-14 08:33:14 422

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除