- 博客(7)
- 收藏
- 关注
原创 同义词挖掘干货
同义词挖掘同义词长久以来作为衡量语言模型的任务之一,除此之外,在搜索场景中,为了提高检索的泛化性,同义词也少不了。笔者最近接到了同义词挖掘的任务,其实是个子任务,在乞讨的过程中搜集了一些方法和数据,在这里share给大家,希望为同行的人指点一二。现成的Synonyms包githubhtml用维基百科中文语料训练的同义词工具,直接pip即可,输入词即可直接返回top k的近义词,可以通过top p准确说叫top distance来通过阈值选取同义词。这样非常的方便,但是一些词会出现OOV,因为具
2021-01-28 17:24:34 3263 3
原创 query归一 & 同义词挖掘
query归一 & 同义词挖掘定义Query归一和query纠错在概念上容易混淆,相较于query纠错是对存在错误的query进行纠正,query归一则主要起到对同近义表达的query进行语义归一的作用。一些用户的query组织相对来说比较冷门,和item侧(检索语料)资源的语义相同但文字表达相差较大,直接用于召回的话相关性可能会打折扣,这时如果能将这些query归一到相对热门同义或存在对应资源的query会更容易召回相关结果。腾讯台球 腾讯桌球华仔啥时候出生的?刘德华出生年月刘德华
2021-01-28 17:19:16 3905
原创 剑指offer 反转链表
python如何创建一个链表class Node: def __init__(self, data): ''' :param data: 数据 ''' self.data=data self.next=None def __repr__(self): return str(self....
2019-11-27 11:17:16 205
原创 反-反调试+Ajax请求,javascript渲染
之前实习有遇到很烦的反爬措施-反调试,当时不懂,领导就说是跳不过breakpoint断点,就用selenium+webdriver解决了,最近看了两篇推送,大神解开了我的疑惑。原来网站的反爬措施是反调试+ajax请求+javascript渲染https://mp.weixin.qq.com/s/Ki8QZFhTRIlFwrIC9BkoQQhttps://mp.weixin.qq.com/s/-...
2019-11-26 15:09:35 467
原创 剑指offer刷题 二维数组中的查找
二维数组中的查找题目解题具体思路代码题目时间限制:1秒 空间限制:32768K 热度指数:1416236本题知识点: 查找 数组题目描述:在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。解题首先由二维数组的单调性特殊,所以肯定放弃暴力查找;由...
2019-10-03 15:39:51 152
原创 不可枚举组合不重复的随机抽取若干次-时间复杂度优化
不可枚举组合如何不重复的随机抽取若干次趁着程序跑的时间,来总结一下,不可枚举组合如何不重复的随机抽取若干次的实现。排列和组合真是一个神奇的东西,一切都要从说起比如:我们在进行计算的时候,一个有38个特征,另一个有19个特征,我们想计算所有的匹配组合,那么就是C38|19,这个数是多大呢?别小瞧他,300亿!!!而我的需求还是要将特征旋转一次,也就是还要乘19,那就是六千亿,显然这是计算机无...
2019-08-23 13:46:53 467
原创 copy函数+不/可变对象,python实现list每个元素依次左移
Python实现list的所有元素左移一个位置,且将所有结果保存成一个list例如:[1,2,3,4,5]输出:[[1,2,3,4,5], [2,3,4,5,1], [3,4,5,1,2], [4,5,1,2,3], [5,1,2,3,4]]天真烂漫lt = [1, 2, 3, 4, 5]end=[]l=len(lt)for i in range(l): lt.append...
2019-08-11 22:26:40 388
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人