python 下的 word2vec 学习笔记

最新推荐文章于 2024-03-31 18:39:12 发布

永永夜

最新推荐文章于 2024-03-31 18:39:12 发布

阅读量4.2w

点赞数 7

文章标签： python linux word2cev

本文链接：https://blog.csdn.net/jerr__y/article/details/52967351

版权

机器学习同时被 2 个专栏收录

23 篇文章 3 订阅

订阅专栏

python

18 篇文章 0 订阅

订阅专栏

1.ubuntu下安装gensim

refer to: ubuntu 14.04 安装gensim

为了保证安装成功，首先升级一下easy_install工具。

sudo easy_install -U setuptools

之后使用easy_install进行安装，使用apt-get安装会遇到编码出错，不知为什么，使用easy_install安装成功就行了。

sudo easy_install --upgrade gensim

结果在import gensim 中还出现了点小错误，缺少了平pattern模块，所以直接pip 安装。

sudo pip install pattern

2.训练生成模型

安装完成之后，就来训练模型。
refer:中英文维基百科语料上的word2vec实验

模型的训练如下：

# ################# 例1 #########################
# import modules & set up logging
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)

在本次的实验中，我们的数据是保存在txt文件中的。每一行对应一个句子（已经分词，以空格隔开），我们可以直接用LineSentence把txt文件转为所需要的格式。

# ################# 例2 #########################
from gensim import Word2Vec
from gensim.Word2Vec import LineSentence

# inp为输入语料
inp = 'wiki.zh.text.jian.seg.txt'
# outp1 为输出模型
outp1 = 'wiki.zh.text.model'
# outp2为原始c版本word2vec的vector格式的模型
outp2 = 'wiki.zh.text.vector'
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)

关于Word2Vec(…) 模型的参数说明（refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明）：

**LineSentence(inp)：**应该是把word2vec训练模型的磁盘存储文件（model在内存中总是不踏实）转换成所需要的格式；对应的格式是参考上面的例1。
**size：**是每个词的向量维度；
**window：**是词向量训练时的上下文扫描窗口大小，窗口为5就是考虑前5个词和后5个词；
**min-count：**设置最低频率，默认是5，如果一个词语在文档中出现的次数小于5，那么就会丢弃；
**workers：**是训练的进程数（需要更精准的解释，请指正），默认是当前运行机器的处理器核数。这些参数先记住就可以了。

说明一下输入语料，输入的是文本文件的格式，其中没一行表示一个文章，而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多，我一般用的是结巴分词（不知道大家以后没有好的分词工具推荐）。一般来说，训练集越大，结果的泛化性越好，对于专业领域的话，最好能使用专业领域的语料来进行训练。

class LineSentence(object):
    """Iterate over a file that contains sentences: one line = one sentence.
    Words must be already preprocessed and separated by whitespace.

    """
    def __init__(self, source, max_sentence_length=MAX_WORDS_IN_BATCH, limit=None):
        """

        Parameters
        ----------
        source : string or a file-like object
            Path to the file on disk, or an already-open file object (must support `seek(0)`).
        limit : int or None
            Clip the file to the first `limit` lines. Do no clipping if `limit is None` (the default).

        Examples
        --------
        .. sourcecode:: pycon

            >>> from gensim.test.utils import datapath
            >>> sentences = LineSentence(datapath('lee_background.cor'))
            >>> for sentence in sentences:
            ...     pass

        """
        self.source = source
        self.max_sentence_length = max_sentence_length
        self.limit = limit

    def __iter__(self):
        """Iterate through the lines in the source."""
        try:
            # Assume it is a file-like object and try treating it as such
            # Things that don't have seek will trigger an exception
            self.source.seek(0)
            for line in itertools.islice(self.source, self.limit):
                line = utils.to_unicode(line).split()
                i = 0
                while i < len(line):
                    yield line[i: i + self.max_sentence_length]
                    i += self.max_sentence_length
        except AttributeError:
            # If it didn't work like a file, use it as a string filename
            with utils.open(self.source, 'rb') as fin:
                for line in itertools.islice(fin, self.limit):
                    line = utils.to_unicode(line).split()
                    i = 0
                    while i < len(line):
                        yield line[i: i + self.max_sentence_length]
                        i += self.max_sentence_length

3.导入模型

# -*- coding: utf-8 -*-
# <nbformat>3.0</nbformat>

import gensim
# 导入模型
model = gensim.models.Word2Vec.load("wiki.zh.text.model")

4. 模型使用

可以参照官网上的指导迅速了解model的各种功能方法。

4.0 获取词向量

		print model[u'汽车']
		type(model[u'汽车'])

# 结果
[  3.74845356e-01   1.86477005e+00   1.28353190e+00   8.04618478e-01 ... ]
numpy.ndarray

4.1 计算一个词的最近似的词，倒排序

result = model.most_similar(u'足球')
for each in result:
    print each[0] , each[1]

国际足球 0.556692957878
足球运动 0.530436098576
篮球 0.518306851387
国家足球队 0.516140639782
足球队 0.513238489628
足球联赛 0.500901579857
football 0.500162124634
体育 0.499264538288
足球比赛 0.488131582737
冰球 0.48725092411

4.2 计算两词之间的余弦相似度

word2vec一个很大的亮点：支持词语的加减运算。（实际中可能只有少数例子比较符合）

>>> model.most_similar(positive=['woman', 'king'], negative=['man'])
[('queen', 0.50882536), ...]

sim1 = model.similarity(u'勇敢', u'战斗')
sim2 = model.similarity(u'勇敢', u'胆小')
sim3 = model.similarity(u'高兴', u'开心')
sim4 = model.similarity(u'伤心', u'开心')
print sim1 
print sim2
print sim3
print sim4

0.254622852224
0.38974887559
0.423695453969
0.376244588456

##4.3 计算两个集合之间的余弦似度
当出现某个词语不在这个训练集合中的时候，会报错！！！。

list1 = [u'今天', u'我', u'很', u'开心']
list2 = [u'空气',u'清新', u'善良', u'开心']
list3 = [u'国家电网', u'再次', u'宣告', u'破产', u'重新']
list_sim1 =  model.n_similarity(list1, list2)
print list_sim1
list_sim2 = model.n_similarity(list1, list3)
print list_sim2

0.541874230659
0.13056320154

4.4 选出集合中不同类的词语

list = [u'纽约', u'北京', u'上海', u'西安']
print model.doesnt_match(list)
list = [u'纽约', u'北京', u'上海', u'西瓜']
print model.doesnt_match(list)

纽约
西瓜

永永夜

关注

7
点赞
踩
38

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录