机器学习(理论)
文章平均质量分 88
seasongirl
阿里 算法工程师
展开
-
TF-IDF的理解
一直对TF-IDF的概念理解的不太清楚,所以写篇博客来理一理。1.定义(概括) 在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之...原创 2018-04-21 17:40:16 · 6457 阅读 · 0 评论 -
泛化误差和经验误差
泛化误差和经验误差目录:- 基本概念- 数学表达- 应用-------------------基本概念 西瓜书上的解释,学习器在训练集上的误差成为“训练误差”或“经验误差”。在新样本上的误差称为“泛化误差”。 以前在机器学习中泛化误差是用来衡量一个学习机器推广未知数据的能力,即根据从样本数据中学习到的规则能够应用到新数据的能力。数学表达...原创 2018-07-02 20:37:46 · 16249 阅读 · 0 评论 -
关于Embedding
EmbeddingEmbedding的定义Embedding的应用如何Embedding?Word Embedding的方法参考资料本文对Embedding和word embedding作一个简要的介绍。Embedding的定义Embedding是从离散对象(例如字词)到实数向量的映射。 这些向量中的各个维度通常没有固定含义,机器学习所利用的是向量的位置和相互之间的距离这些整体模式。Emb...原创 2019-04-02 15:50:51 · 1108 阅读 · 0 评论