- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 模型评估方法
问题背景我们只有一个包含m个样例的数据集D={(x1,y1)…(xm,ym)},既要训练,又要测试,怎样才能做到呢?答案是通过对D进行适当的处理,从中产生出训练集S和测试集T,下面介绍几种常见的做法。留出法留出法直接将数据集D划分为两个互斥的集合,其中训练集为S,测试集T,即D=SUT,SnT=空集,留出法一般是多次随机划分,然后求平均值,其中训练集大概要在2/3~4/5之间。交叉验证法...
2019-09-26 11:52:14 185
原创 Spark:HanLP+Word2Vec+LSH实现文本推荐(kotlin)
Spark:HanLP+Word2Vec+LSH实现文本推荐(kotlin)文本推荐的基本流程就是首先对目标本文进行关键词提取,接着把关键词转成词向量,再计算词向量的相似性进行推荐。这三个步骤都有现成的模型和算法来实现,本文介绍的就是基于spark用hanlp+word2vec+lsh实现文本推荐。下面先介绍每个步骤所用的模型和算法。1.HanLP:提取中文文本的关键词1.HanLP是一系...
2019-09-25 11:38:52 3496
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人