word2vector从参数解释到实战

本文介绍了gensim的Word2Vector模块,详细讲解了参数,并通过kaggle电影评论数据集进行了实战应用,包括数据预处理、模型训练及效果评估,所有代码均适用python3。
摘要由CSDN通过智能技术生成

1,Word2Vector参数解释

Word2Vector是gensim封装好的模块,gensim是generate similarity的缩写。

本文默认有词向量的基础。参数:

from  gensim.models import Word2Vec
#下面的参数均是默认值
Word2Vec(sentences=None,  #sentences可以是分词列表,也可以是大语料
        size=100,#特征向量的维度
        alpha=0.025,#学习率
        window=5,#一个句子内,当前词和预测词之间的最大距离
        min_count=5,#最低词频
        max_vocab_size=None,#
        sample=0.001, #随机下采样的阈值
        seed=1,#随机数种子
        workers=3,#进程数
        min_alpha=0.0001,#学习率下降的最小值
        sg=0, #训练算法的选择,sg=1,采用skip-gram,sg=0,采用CBOW
        hs=0,# hs=1,采用hierarchica·softmax,hs=10,采用negative sampling
        negative=5,#这个值大于0,使用negative sampling去掉'noise words'的个数(通常设置5-20);为0,不使用negative sampling
        cbow_mean=1,#为0,使用词向量的和,为1,使用均值;只适用于cbow的情况
        iter = 5,#迭代次数
        null_word = 0,
        trim_rule = None, #裁剪词汇规则,使用None(会使用最小min_count)
        sorted_vocab = 1,#对词汇降序排序
        batch_words = 10000,#训练时,每一批次的单词数量
        compute_loss = False,
        callbacks = ())

2,kaggle电影评论实战

  • 导入需要用到的模块
import pandas as pd
import numpy as np
from gensim.models import word2vec
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
import nltk.data
import re

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值