自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

翻译 如何索引数以十亿计的文本向量?

原文: 如何索引数以十亿计的文本向量? 论文信息检索 存在 查找相似的文本片段丰富查询所用的数据 : 问1 输入的查询 R【{q0,q1,..qk}】 = 用户生成的查询【用户输入文本片段 q】 + 生成的合成查询【索引中已有的其他查询 Q】 那么必须匹配并让它们相似 输入查询与索引中已有的其他...

2020-01-05 11:39:05 273

原创 中文分词 & jieba

1 词是中文 最小的独立有意义的语言成分。2 中文以字为单位而不用空格分割。3 分词问题 是中文文本处理的基础性工作,深刻影响后续中文处理效果。 词怎么规范的切分-->词的定义是什么? 歧义切分 交集型切分 多义组合型 未登录词 :[新词,自造词]4 方法演变4.1 基于规则实现 有 字典,词库数据...

2020-01-03 21:17:30 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除