2018年11月_haidixipan

原创 18.如何验证求目标函数梯度功能的正确性

给定优化问题：,假设已经用代码上线了求目标函数值和求目标哈桉树梯度的功能，请问，如何利用求目标函数值的功能来验证求目标函数梯度的功能是否正确？根据梯度的定义，目标函数的梯度向量为：，其中每一个元素为目标函数(优化函数)对这一模型参数求的偏导数。回顾一下偏导数的定义：，即函数L(\theta )在这点的斜率，ei为维度与\theta 一样的向量，只有在i这个维度为1，其余为0。...

2018-11-23 18:04:20 1134 1

原创 17.LDA与word2vec区别

LDA涉及到的数据知识不是一般的多，这里不做详细阐述，可参考如下博客：https://blog.csdn.net/v_july_v/article/details/41209515总的来说LDA与word2vec区别如下：区别 LDA word2vec 输出文档-主题概率分布矩阵和主题-词概率分布矩阵词对应的词向量训练方法利用文档中单词的贡献关...

2018-11-21 19:46:41 2163

原创 16.Word2Vec是如何工作的

Word2Vec是一种比较常用的词嵌入模型，它实际是一种浅层的神经网络，有两种网络结构，分别是CBOW和skip-gram.CBOW的目标是根据上下文出现的词语来预测当前词的生成概率；而skip-gram是根据当前词来预测上下文中各词的生成概率，看起来两种网络结构是互为镜像的，如下图。由上图，两种网络模型都可以表示成输入层、映射层与输出层。w(t)为当前词，w(t-2)、w(t-1...

2018-11-19 11:48:32 335

原创 15.xgboost步长如何设定

xgboost的步长即是parameter里的eta(learning rate),官方对它的定义如下：eta [default=0.3, alias: learning_rate]Step size shrinkage used in update to prevents overfitting. After each boosting step, we can directly get...

2018-11-16 11:33:53 1511 1

转载 14:回归类问题阈值如何确定

在用逻辑回归做潜在用户挖掘时,阀值(Z)的选取是一个头疼的问题。取太高，查全率虽然高了，但是查询条件过于严格，挖掘出的潜在用户过少。取的太低，资源浪费的太多。对于一般的营销而言，这个问题很好解决，只要按照预算，从高往下选取就可以了。但对于其他没有预算约束的情况就比较麻烦。希望下面的公式可以给予一些启发Z=Ln（(qc)/(QC)）q-发生显性结果的先验概率，比如信用卡用户发生违约的以往概率...

2018-11-14 20:33:19 8795

原创 13.解决样本不均衡问题

实际工作中经常遇到样本不均衡问题，比如某P2P平台预测用户信誉，1为信誉良好，0为有违约记录，样本采集下来为1的样本占绝大多数（比如90%），此时如果你用分类模型，目标函数是准确率，那么即使你全部预测为1，那么准确率也为90%，会极大的影响模型效果。因此在我们在训练模型之前，先要处理样本均衡的问题，总结方法如下：1.上下采样：上采样为增加小众样本数量（一份数据复制多份），下采样为减少大众样...

2018-11-07 16:05:02 764

haidixipan的博客