词向量
主要介绍一些词向量方面的知识
Elenstone
这个作者很懒,什么都没留下…
展开
-
图解Word2vec
转自图解Word2vec转载 2020-04-03 16:34:42 · 239 阅读 · 0 评论 -
使用python+gensim训练2g语料的word2vec向量
目录0 前言1 gensim库1.1 gensim.models.word2vec API概述1.2 gensim训练word2vec词向量步骤2 训练搜狗语料2.1 分词2.2 构建词向量2.3 保存和加载模型2.4 词向量使用3 二维空间显示词向量0 前言《词向量之Word2Vec数学原理以及源代码详解》很好的讲解了Word2Vec的原理以及一些源码的解读,Word2Vec的词向量有两种方...原创 2020-04-03 10:17:00 · 1450 阅读 · 0 评论 -
词向量之Word2Vec数学原理以及源代码详解
本文主要转自word2vec 中的数学原理详解(一)目录和前言,原文讲的十分透彻但是是分开的,所以将它合并在一起,记录在自己的专栏里,防止忘记。...转载 2020-03-29 16:19:16 · 332 阅读 · 0 评论 -
词向量之TF-IDF模型详解
目录0 前言1 TF-IDF模型1.1 TF-IDF数学形式1.2 举例2 TF-IDF的实现2.1 TF-IDF简单python实现2.2 TF-IDF的gesim实现:2.3 TF-IDF的sklearn实现0 前言前面介绍了词向量的One-Hot模型以及词袋模型,这都是为了将离散符号表示的文本转换成数字表示,以提供给后续机器学习算法的使用。词向量之One-Hot编码详解词向量之词袋模...原创 2020-03-28 19:40:46 · 7547 阅读 · 1 评论 -
词向量之词袋模型(BOW)详解
目录前言numpy实现前言词袋模型(Bag-of-Words model,BOW)从最初被用在信息检索领域,该模型忽略文本的语法和语序,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档。例如三个句子如下:句子1:小孩喜欢吃零食。句子2:小孩喜欢玩游戏,不喜欢运动。句子3 :大人不喜欢吃零食,喜欢运动。首先...原创 2020-03-27 11:30:40 · 36803 阅读 · 3 评论 -
词向量系列之One-Hot编码详解
目录0.前言1. 独热编码1.1 独热编码例子1.2 独热编码的优点1.3 独热编码的缺点1.4 独热编码适用的情况2. 独热编码的实现2.1 python简单实现one-hot编码2.2 sklearn2.3 Keras2.4 tensorflow0.前言 在回归,分类,聚类等机器学习算法中,各个特征之间的距离(相似度)计算是非常重要的,然而常用的距离计算都是在欧式空间内计算,例如计算余弦...原创 2020-03-26 15:46:06 · 4788 阅读 · 0 评论