小白如何快速训练词向量

但凡谈及自然语言处理,我们都会想到词向量,那么怎么快速地获得词向量呢?最简单的方法就是word2vec。本文不深究word2vec的原理,网上很多细致深入的解读,大家可以自行搜索。今天总结一下如何快速训练自己的词向量,作为参考个人的手册。

1、 语料

丰富、高质量的语料是词向量成功第一步。

前两天学到一个名词,叫自监督学习,word2vec就是其中一种。自己监督自己,很容受到噪声的干扰,如果数据不干净,结果也会谬以千里。

word2vec虽然不是统计算法,但是训练过程中很大程度上在理解上下文,在理解共现关系。丰富的语料,才能保证对词语正确的理解。很多低频词由于训练不足,词向量基本是随机初始化的,导致在计算词语top-n相似词语的时候出现一些匪夷所思的噪声。

所以请一定多获取数据,多思考怎么把数据过滤得更干净。

2、分词

词向量,词向量,故名思义,首先要有词语,使用分词工具把语料分割为词语序列。

中文分词哪家强?常用的有jieba、ltp(哈工大)、thulac(清华)…这几种分词工具各有优劣。不过对于具体领域的任务,我们通常通过加载额外的领域词典,来对分词工具进行补充。这里可能还涉及领域内的新词发现,不展开了。

如果你觉得这些工具都是垃圾,可以自行训练分词模型,常用的有动态规划,隐马尔可夫,以及深度学习分词算法。

3、构建词向量模型

gensim正式登场,其实可以直接使用word2vec库,但是个人觉得gensim库功能更全面,推荐使用。

  • 读取语料,如果你的数据很少,那就简单,把数据全部读到内存中。存到一个二位数组里,[[w1,w2,…], …], 里面的数组表述文本,外面表示所有文本的集合。但是当你的语料很大时,建议逐步加载。官方建议定义一个数据读取的类:
class MyCorpus(object):
    """An interator that yields sentences (lists of str)."""
    def __init__(self, corpus_file, stopwords_dict=None):
        self.corpus_file = corpus_file
        self.stopwords_dict = stopwords_dict

    def __iter__(self):
        count = 0
        for line in open(self.corpus_file):
            # assume there's one document per line, tokens separated by whitespace
            if self.stopwords_dict is not None:
                # 过滤停用词
                line_seg = line.split(" ")
                line_seg = [w for w in line_seg if w not in stopwords_dict]
                line = " ".join(line_seg)
            count += 1
            if count % 10000 == 0:
                print(f"load {count} lines ...")
            yield utils.simple_preprocess(line)

也可以使用gensim的函数:gensim.models.word2vec.PathLineSentences。

  • 模型训练,
sentences = MyCorpus(input_file, stopwords_dict=stopwords_dict)
gensim.models.Word2Vec(sentences, size=vec_size, window=5, min_count=5, sample=1e-5, workers=8, sg=0)
model.wv.save_word2vec_format(output_file, binary=False)

其中size表示词向量的维度;window表示生成训练数据的窗口;min_count表示最小的词频,小于最小词频的词语会被直接过滤掉,不会参与模型训练;sample是正样本降采样的概率大小,来降低高频词的训练次数,避免过度拟合;worker多线程数;sg选训练模式,1表示使用skip-gram(通过当前词语预测上下文词语),0表示使用cbow(通过上下文词语预测当前词语)。

最终通过model.wv.save_word2vec_format把模型保存下来。

4、应用

词向量的应用,最直观的就是计算近义词了,比如你输入“如花”,可能召回“似玉”。

  • 加载模型
 model = gensim.models.KeyedVectors.load_word2vec_format(output_file)
  • 计算top-n相似词
topn_simi_words = model.most_similar("如花", topn=K)

除计算近义词,比较炫酷的应用是通过词向量减法来获取一些潜在关系,比如王子-公主=国王-王后,这也是当年词向量出来后,给的demo,让人觉得眼前一亮。此外,现在训练深度学习模型,通常喜欢预训练词向量,克服标注数据不足的问题。

词向量让我们能够从几何的角度理解语义,并可视化,是一个从抽象到具体的炫酷过程。虽然咱们只是观众,忍不住要欢呼,牛逼!词向量很容易推广到其他类型的iterm,只要能够能到有意义的iterm序列,就能得到iterm向量。最近有野心者觉得一切皆可embedding,一切可以向量化,你觉得可能么?

### 如何下载预训练模型 对于不同的深度学习框架,下载预训练模型的方式有所不同。下面分别介绍在TensorFlow和PyTorch中下载预训练模型的方法。 #### TensorFlow中的ResNet-50模型下载 在TensorFlow中,可以通过Keras API方便地获取预训练的ResNet-50模型。这使得开发者能够快速开始图像分类任务的研究与开发工作[^1]。 ```python from tensorflow.keras.applications.resnet50 import ResNet50 model = ResNet50(weights='imagenet') ``` 这段代码会自动从互联网上下载ImageNet权重,并构建好完整的ResNet-50架构实例`model`。 #### PyTorch中的CLIP和GPT模型下载 当涉及到更复杂的跨模态任务时,则可能需要用到像CLIP这样的多模态预训练模型以及文本生成类的GPT系列模型。这类操作可以在PyTorch环境下完成: ```python import torch from transformers import GPT2LMHeadModel, GPT2Tokenizer from clip import load, tokenize # 加载CLIP模型及其对应的预处理器 clip_model, clip_preprocess = load("ViT-B/32", device="cuda" if torch.cuda.is_available() else "cpu") # 初始化GPT tokenizer 和 model gpt_tokenizer = GPT2Tokenizer.from_pretrained('gpt2-medium') gpt_model = GPT2LMHeadModel.from_pretrained('gpt2-medium').to(device) ``` 上述脚本展示了如何通过Hugging Face Transformers库加载GPT-2中型版本(`gpt2-medium`)作为语言生成器;同时也演示了CLIP模型的加载过程,它支持多种输入形式(如图片路径),并能返回相应的特征表示[^3]。 #### 自然语言处理领域的ELMo模型 针对特定应用场景比如自然语言处理(NLP),还有其他类型的预训练模型可供选择。例如,由艾伦人工智能研究所提出的ELMo就是一个基于双向LSTM结构设计而成的强大工具,适用于需要上下文敏感特性的词语表达场景[^4]。 ```python from allennlp.commands.elmo import ElmoEmbedder elmo = ElmoEmbedder() ``` 此命令行创建了一个ElmoEmbedder对象,可用于计算句子级别的词向量表示。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

忘记开挂的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值