![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 90
JohnWSY
秃头警告的土豆小子
展开
-
同义词挖掘干货
同义词挖掘同义词长久以来作为衡量语言模型的任务之一,除此之外,在搜索场景中,为了提高检索的泛化性,同义词也少不了。笔者最近接到了同义词挖掘的任务,其实是个子任务,在乞讨的过程中搜集了一些方法和数据,在这里share给大家,希望为同行的人指点一二。现成的Synonyms包githubhtml用维基百科中文语料训练的同义词工具,直接pip即可,输入词即可直接返回top k的近义词,可以通过top p准确说叫top distance来通过阈值选取同义词。这样非常的方便,但是一些词会出现OOV,因为具原创 2021-01-28 17:24:34 · 3165 阅读 · 3 评论 -
query归一 & 同义词挖掘
query归一 & 同义词挖掘定义Query归一和query纠错在概念上容易混淆,相较于query纠错是对存在错误的query进行纠正,query归一则主要起到对同近义表达的query进行语义归一的作用。一些用户的query组织相对来说比较冷门,和item侧(检索语料)资源的语义相同但文字表达相差较大,直接用于召回的话相关性可能会打折扣,这时如果能将这些query归一到相对热门同义或存在对应资源的query会更容易召回相关结果。腾讯台球 腾讯桌球华仔啥时候出生的?刘德华出生年月刘德华原创 2021-01-28 17:19:16 · 3766 阅读 · 0 评论 -
不可枚举组合不重复的随机抽取若干次-时间复杂度优化
不可枚举组合如何不重复的随机抽取若干次趁着程序跑的时间,来总结一下,不可枚举组合如何不重复的随机抽取若干次的实现。排列和组合真是一个神奇的东西,一切都要从说起比如:我们在进行计算的时候,一个有38个特征,另一个有19个特征,我们想计算所有的匹配组合,那么就是C38|19,这个数是多大呢?别小瞧他,300亿!!!而我的需求还是要将特征旋转一次,也就是还要乘19,那就是六千亿,显然这是计算机无...原创 2019-08-23 13:46:53 · 441 阅读 · 0 评论