![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
shanghai_in_summer
这个作者很懒,什么都没留下…
展开
-
《word2vec中的数学》内容摘要(四、基于Negative Sampling的Skip-gram模型)
对于给定的样本,我们希望最大化原创 2020-05-01 18:28:13 · 160 阅读 · 0 评论 -
《word2vec中的数学》内容摘要(四、基于Negative Sampling的CBOW模型)
Negative Sampling(NEG)利用随机负采样,能大幅度提高性能。 对于样本,词为正样本,其他词为负样本。假定已经选好了一个关于的负样本子集,且对...原创 2020-04-29 13:01:57 · 235 阅读 · 1 评论 -
《word2vec中的数学》内容摘要(三、基于Hierarchical的Skip-gram模型)
(2) Skip-gram模型 设样本为① 网络结构 a 输入层:只含当前样本中心词的词向量原创 2020-04-27 22:46:40 · 114 阅读 · 0 评论 -
《word2vec中的数学》内容摘要(二、基于Hierarchical的CBOW模型)
2、基于框架Hierarchical Softmax的模型下面介绍基于Hierarchical Softmax的两个模型——CBOW模型和Skip-gram模型。两者的结构如下:两个模型都包含三层:输入层、投影层和输出层。前者是在已知当前词的上下文(context)的前提下,预测当前词;后者是在已知当前词的前提下,预测其上下文。CBOW模型的目标函数是对数似然函数 ...原创 2018-11-05 23:12:18 · 536 阅读 · 0 评论 -
《word2vec中的数学》内容摘要(一 Huffman树)
本文是对《word2vec中的数学》(作者peghoty)的内容摘要。感谢作者,感谢为本文提供直接或间接帮助的人。1、Huffman编码(1)Huffman树 ① 路径和路径长度 路径:在一棵树中,从一个结点往下可以到达的结点的通路; 路径长度:通路中分支的数目称为路径长度。例如,若规定根结点的层号为1,则从根结点到第L层的路径长度为L-1。...转载 2018-11-02 18:05:50 · 186 阅读 · 0 评论 -
EM算法
在统计领域,主要有两大类计算问题,一类是极大似然估计的计算,另一类是Bayes计算。这两者是可以合并讨论的。极大似然估计的计算类似于Bayes的后验众数的计算,因此我们后面就从Bayes计算的角度介绍统计计算方法。Bayes计算方法大体可以分为两大类。一类是直接应用于后验分布以得到后验均值或后验众数的估计,以及这种估计的渐进方差或其近似。另一类算法可称为数据添加算法,它是在观测数据的基础上加上...转载 2018-11-06 09:33:28 · 839 阅读 · 0 评论 -
待整理
本篇博客权当本人的记事本,同行可略过。1、spline regression models;原创 2018-10-21 20:04:18 · 91 阅读 · 0 评论 -
用有监督的学习方法来学习无监督学习模型
下面我们讨论一种将“概率密度函数估计问题”转化为“有监督的函数逼近”的技巧。设为未知的、需要估计的概率密度函数,为指定用来作为“参考”的、已知的概率密度函数。设为从抽取的一个独立同分布的“训练样本”。我们也可以使用蒙特卡洛的方法从抽取一个样本量为的独立同分布“参考样本”。将质量分配给训练样本,将质量分配给参考样本。(我觉得上述分配质量的操作无异于令)。将上述两个样本混合,得到一个从概率密度抽取...原创 2018-10-13 18:24:30 · 575 阅读 · 0 评论 -
Python中的时间和日期
1、使用pd.to_datetime(),可以将以字符串格式的日期为元素的序列转化为日期,格式为timestamp,例如:pd.to_datetime(['2017-08-21', '2017-08-22'])# 运行结果:DatetimeIndex(['2017-08-21', '2017-08-22'], dtype='datetime64[ns]', freq=None) ...原创 2018-08-21 18:32:55 · 178 阅读 · 0 评论 -
评分卡制作过程
1、明确目的,要用评分卡去对什么打分;2、对数据进行分析:对每一个变量进行分析。例如分析其缺失率,分析其缺失的原因,尤其是在多个变量缺失率相同的情况下,是否由于其他变量取某值而造成无法避免的缺失,如果是这样需要针对该种情况单独建模。例如申请借款时,企业(法人)用户通常不会填写“职业”、“工资”、“工作年限”等信息。所以这些信息通常为空,所以要考虑为企业(法人)用户单独建立评分卡模型; 明...原创 2018-09-18 13:28:25 · 2425 阅读 · 0 评论 -
解决过拟合的方法
1、减少输入特征的个数;2、获取更多的训练样本;3、在目标函数中增加正则化项。原创 2018-08-13 19:42:56 · 146 阅读 · 0 评论