![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
散记cont
文章平均质量分 64
from now
阿.荣.
勿弃
展开
-
gensim.models.Word2Vec
本文记录gensim.models中Word2Vec的各项参数,以便日后回顾记忆from gensim.models import Word2Vec """ 训练word to vector 的word embedding """ model = Word2Vec(x, size=50, window=5, min_count=1, workers=4, iters=10, sg=1) return model参数:x: 训练数据。size: 主要是用来设置.原创 2021-01-22 16:13:17 · 952 阅读 · 0 评论 -
单变量数据变换
本文记录看到的对数据变换的讲解,作为笔记的一部分,以便今后理解记忆。常见的数据预处理包括: 数据缺失(Missing),奇值处理(Outlier),数据变换(Transformation),特征选择(Feature Selection),特征提取(Feature Extraction),非平衡数据预处理(Imbalance)。这里主要关注数据变换。常见的数据类型包括:以上分别是定性和定量的分类,定量的分为名义上的(没有固有顺序或排名顺序的变量(自己有点不理解))、顺序的(有序序列的变量)、二进制.原创 2021-01-22 15:36:43 · 460 阅读 · 0 评论 -
Word Embedding
讲解语言模型:专家语法规则模型(80年代):自然语言的语法规则。统计语言模型(00年代):计算一个句子出现的概率,概率越大,句子越合理。神经网络语言模型(至今):2003年Bengio提出词向量的概念,离散变量(高维)/连续变量(具有一定维度的实数向量,单词的分布式表示),可以看作使用神经网络编码的n-gram模型。https://www.cnblogs.com/dyl222/p/...原创 2019-10-12 21:07:36 · 112 阅读 · 0 评论