20.推荐召回算法之k近邻算法:局部敏感哈希、kdtree、balltree算法分析与比较

推荐系统里面临的比较大的问题是1.召回 2.排序。召回是从百万、千万甚至上亿的候选中找到用户可能喜欢的商品(可以不那么精细),排序一般是设计怎样排序才能使点击率更高。 考虑一个新闻推荐场景,假设一个用户曾经看过美妆、育儿、明星类的新闻,怎样在ta下一刷中把用户可能感兴趣的找到并推给用户呢? 比...

2018-12-29 18:01:44

阅读数 465

评论数 0

19.有哪些文本表示模型,他们各有什么优缺点

1.词袋模型/N-gram 每篇文章表示成一个N维向量,每一维度表示一个单词,值为这个词对这篇文章的重要程度,计算公式为: TF-IDF(t,d) = TF(t,d)*IDF(t) 其中,TF(t,d)为单词t在文档d中出现的频率,IDF(t) = log(文章总数/(包含单词t的文章总数+...

2018-12-04 13:58:33

阅读数 198

评论数 0

18.如何验证求目标函数梯度功能的正确性

给定优化问题: ,假设已经用代码上线了求目标函数值和求目标哈桉树梯度的功能,请问,如何利用求目标函数值的功能来验证求目标函数梯度的功能是否正确? 根据梯度的定义,目标函数的梯度向量为:,其中每一个元素为目标函数(优化函数)对这一模型参数求的偏导数。 回顾一下偏导数的定义:  ,即函数L(\...

2018-11-23 18:04:20

阅读数 102

评论数 0

17.LDA与word2vec区别

LDA涉及到的数据知识不是一般的多,这里不做详细阐述,可参考如下博客:https://blog.csdn.net/v_july_v/article/details/41209515 总的来说LDA与word2vec区别如下: 区别 LDA word2vec 输出 文档-主...

2018-11-21 19:46:41

阅读数 459

评论数 0

16.Word2Vec是如何工作的

Word2Vec是一种比较常用的词嵌入模型,它实际是一种浅层的神经网络,有两种网络结构,分别是CBOW和skip-gram.CBOW的目标是根据上下文出现的词语来预测当前词的生成概率;而skip-gram是根据当前词来预测上下文中各词的生成概率,看起来两种网络结构是互为镜像的,如下图。   ...

2018-11-19 11:48:32

阅读数 98

评论数 0

15.xgboost步长如何设定

xgboost的步长即是parameter里的eta(learning rate),官方对它的定义如下: eta [default=0.3, alias: learning_rate] Step size shrinkage used in update to prevents overfit...

2018-11-16 11:33:53

阅读数 79

评论数 0

14:回归类问题阈值如何确定

 在用逻辑回归做潜在用户挖掘时,阀值(Z)的选取是一个头疼的问题。取太高,查全率虽然高了,但是查询条件过于严格,挖掘出的潜在用户过少。取的太低,资源浪费的太多。对于一般的营销而言,这个问题很好解决,只要按照预算,从高往下选取就可以了。但对于其他没有预算约束的情况就比较麻烦。 希望下面的公式可以给予...

2018-11-14 20:33:19

阅读数 1327

评论数 0

13.解决样本不均衡问题

实际工作中经常遇到样本不均衡问题,比如某P2P平台预测用户信誉,1为信誉良好,0为有违约记录,样本采集下来为1的样本占绝大多数(比如90%),此时如果你用分类模型,目标函数是准确率,那么即使你全部预测为1,那么准确率也为90%,会极大的影响模型效果。 因此在我们在训练模型之前,先要处理样本均衡的...

2018-11-07 16:05:02

阅读数 98

评论数 0

9:极大似然估计

极大似然估计,也叫最大似然估计,是参数估计的一种方法,一般用来推测数据分布函数相关参数。 极大似然估计步骤: 1.先假设数据属于某一分布(正太分布、泊松分布等),得到概率分布函数 2.对概率分布函数求导,另导数等于0(若有多处为0,选另样本点概率最大的参数),根据样本点数据,求参数值 为什...

2018-10-31 15:03:38

阅读数 44

评论数 0

8.softmax

softmax为归一化函数,形式如下:                                                   for j = 1, …, K. 如上式,softmax将元素限制在(0,1)范围内,特点是会凸显最大值并抑制远低于最大值的元素   Python使用...

2018-10-29 17:12:33

阅读数 37

评论数 0

6.随机森林,GBDT,Adaboost

参考链接:https://blog.csdn.net/lyf52010/article/details/79822382 1.随机森林,属于bagging的一种(bagging与boosting的区别见:https://blog.csdn.net/haidixipan/article/detai...

2018-10-26 11:20:34

阅读数 32

评论数 0

6.LSTM

LSTM(Long short-term memory)与RNN不同的是,在处理文本信息时,后者对间隔比较长的文本之间的关联处理的不够好,而LSTM网络相对RNN可以记住大段文本的有用信息。 LSTM构成: 1.遗忘门:首先决定丢弃哪些不重要的信息 2.输入门:决定要保留哪些新的信息 3....

2018-10-24 15:41:10

阅读数 50

评论数 0

5.RNN原理

一.RNN 循环神经网络(RNN, Recurrent Neural Networks) 参考链接:https://blog.csdn.net/heyongluoyao8/article/details/48636251 构成:输入层,隐藏层(多个),输出层 特点: 1.隐藏层间的节点是可以...

2018-10-23 20:33:58

阅读数 30

评论数 0

3.ROC,准确率、召回率

ROC曲线一般用于分类问题,衡量分类模型好坏的一个指标 首先对样本进行如下划分   预测真 预测假 实际真 TP(True Positive) FN(False Negative...

2018-10-22 17:38:33

阅读数 57

评论数 0

3.L1和L2的区别;L1为什么能稀疏矩阵L2不能;L2为什么能解决过拟合

1.L1和L2的区别 L1:预测值与实际值差值的绝对值之和 L2:预测值与实际值差值的平方之和   2.L1为什么能稀疏矩阵L2不能: 参考链接:https://blog.csdn.net/autocyz/article/details/76511527, 矩阵指的是模型参数组成的矩阵...

2018-10-19 19:36:41

阅读数 295

评论数 0

2.bagging和boosting的区别

区别总结   Bagging Boosting 样本选择 有放回的选取 全量选取 样本权重 权重相等 错误率大的样本...

2018-10-17 10:32:44

阅读数 56

评论数 0

1.内容推荐系统的建模过程和特征的选择方法

内容推荐系统的目标是将用户感兴趣的内容推荐给用户。 一、建模过程 基于内容的推荐系统面临的问题有1.怎么从海量级物料中挑出用户感兴趣的内容 2.用户最感兴趣的内容如何第一时间呈现给用户 问题1, 1)利用统一的标签体系,将用户和物料分别打标签,然后从海量视频中捞出与用户标签相符的物料 2...

2018-10-16 11:25:58

阅读数 161

评论数 0

leetcode 36. Valid Sudoku

本题判断数独题,难度medium,行和列单独设置一个字典好判断,九宫格号如何计算时本题难点。根据数字下标我们发现,行号/3 * 10 + 列号/3*100可以把九宫格区分开来,然后再判断九宫格里有无此数字即可,详见代码。Determine if a 9x9 Sudoku board is vali...

2018-04-28 14:11:29

阅读数 25

评论数 0

leetcode 35. Search Insert Position

本道为easy,考察二分查找Given a sorted array and a target value, return the index if the target is found. If not, return the index where it would be if it were...

2018-04-26 11:00:04

阅读数 23

评论数 0

leetcode 34. Search for a Range

本题的解决思路是先找到target的开始位置,然后顺着开始位置找到结束为止,注意找开始位置的用法Given an array of integers nums sorted in ascending order, find the starting and ending position of a...

2018-04-25 10:44:01

阅读数 24

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭