- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 embedding与word2vec
embedding是指将目标向量化,常用于自然语言处理(如:Word2Vec)。这种思想的意义在于,可以将语义问题转换为数值计算问题,从而使计算机能够便捷处理自然语言问题。如果采用传统的One-hot编码,每个单词之间相互独立,此时词向量之间相互正交,编码无法反映单词之间的关联关系。而embedding可以理解为是将One-hot编码的高维向量,降维到一个较低维度的空间,在这个空间中不同单词之间能...
2018-04-24 11:09:42 1639
原创 ROC曲线和AUC
ROC全称Receiver Operating Curve,最早应用于二战时的雷达探测,以评价信号侦测模型的优劣。在机器学习领域,ROC曲线同样用于模型效果的评价。ROC曲线样例如下图所示,其横坐标为假正率(FPR),纵坐标为真正率(TPR),曲线上的点对应不同阈值下的模型(FPR,TPR)。ROC理解的难点就在于阈值的变化,能够造成FPR和TPR的变化,从而形成曲线。当判断正负样本的阈值为极端小...
2018-04-17 11:21:32 716
原创 hive中left join、left outer join和left semi join的区别
先说结论,再举例子。hive中,left join与left outer join等价。left semi join与left outer join的区别:left semi join相当于in,即会过滤掉左表中join不到右表的行,右表中有多行能join到时显示一行,并且只输出左表的字段、不输出右表的字段;left outer join不会过滤掉左表中的行,右表中有多行能join到时显示多行,并...
2018-04-10 20:10:50 8888 1
R语言与网站分析:数据集样例及分类算法实现
2016-02-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人