美团外卖/滴滴20201225面试

最新推荐文章于 2024-05-02 17:57:49 发布

cyong888

最新推荐文章于 2024-05-02 17:57:49 发布

阅读量129

点赞数

分类专栏： NLP pythonn 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyong888/article/details/111699174

版权

pythonn 同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

1. 向量召回的原理：

譬如：输入一个title的向量，召回相关的query向量list。向量list存储起来，等待title向量的召回。

召回方式有很多中：

1.1 线性扫描：将待预测样本和候选样本逐一比对，最终挑选出距离最近的k个样本即可，时间复杂度 O(n），在规模较大的时候，时间开销严重无法接受。

1.2 KDTree：是二叉树，核心思想是对k维特征空间不断的以中值递归切分构造树。每个阶段是一个超矩形，小于节点的样本，划分到左子树，大于结点的样本划分到右子树。

kd树，在维度小于20的时候，效率最高。

1.3 BallTree：kd树沿着坐标轴分隔数据，BallTree将在一系列嵌套的超球面上分隔数据，即使用超球面而不是超矩形来划分区域。

虽然在构建数据结构的花费上多大过于KDtree，但是在高维甚至更高维的数据上都表现得很高效。

1.4 Annoy：

同样通过建立一个二叉树使得每个点查找时间复杂度是o（logn），和kd树不同的是，annoy没有对K维特征做切分，Annoy的每一次空间划分，可能看做聚类数为2的KMeans过程，查找过程和KD树类似，先从跟向叶子结点递归查找。annoy接口中一般需要调整的参数有2个：查找返回的topk近邻和树的个数，一般树越多，精准率越高，但是对内存的开销也越大，需要权衡取舍。

1.5 NSW：navigable small world graphs，是基于图存储的数据结构，查找最近的友点。

1.6 HNSW：加入调表结构，进一步优化，最底层是所有数据点，每个点都有50%的概率进入上一层的有序链表。这样可以保证表层是高速通道，底层是精细查找。

1.7 facebook的 faiss向量检索。base 在knn 最近邻检索。

2. gbdt的原理，最好能涉及到公式的维度

2.1 gbdt损失函数时平方损失函数。adaboost 损失还是用的是指数损失函数。

2.2 gbdt算法是模型为加法模型，学习算法为前向分布算法，基函数为cart树。

3. gbdt 如何优化变快?

4. LSA、PLSA、LDA 的原理

5.bert的loss是如何定义的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
美团外卖/滴滴20201225面试

1. ANN的原理，即向量召回的原理2. gbdt的原理，最好能涉及到公式的维度3. gbdt 如何优化变快4.
复制链接

扫一扫

专栏目录

cyong888 CSDN认证博客专家 CSDN认证企业博客

码龄17年

82: 原创

6万+: 周排名

133万+: 总排名

17万+: 访问

: 等级

2577: 积分

214: 粉丝

18: 获赞

9: 评论

35: 收藏

私信

关注

热门文章

分类专栏

RTA 1篇
广告
keras 1篇
pythonn 8篇
推荐系统
NLP 6篇
笔记 2篇
日记
java 28篇
javascript 7篇
jsp 2篇
数据库 26篇
eclipse
生活工作体会 1篇
Extjs 2篇
操作系统 2篇
代码管理工具 1篇
WAS
shell 5篇
DB2 2篇
mobile app 1篇
系统集成 1篇
http/restful 1篇
Hadoop 2篇
数据挖掘 7篇
hive 1篇
机器学习 11篇

最新评论

awk 合并2个文件
CSDN-Ada助手: CS入门技能树或许可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
bert参数-max_seq_length的含义解释
鱼幼薇: 我这里直接报错了，要求更改设置。报错信息如下： [serWarning: some of your sentences have more tokens than "max_seq_len=25" set on the server, as consequence you may get less-accurate or truncated embeddings. here is what you can do: - disable the length-check by create a new "BertClient(check_length=False)" when you do not want to display this warning - or, start a new server with a larger "max_seq_len" '- or, start a new server with a larger "max_seq_len"' % self.length_limit)] [/code]
bert参数-max_seq_length的含义解释
大扬哥啦啦啦: 你好，max_seq_length设置的比句子最大值短的话，那么会不会导致得到的结果误差比较大啊
二叉树的左视图-Python
ctotalk: 学习了。
在extjs中，如何改变combobox中store的值。
自律的男孩才有希望找到女朋友: 正解

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。