安装skip-thoughts提取句子特征

MallocLu

已于 2022-09-19 10:51:45 修改

阅读量628

点赞数

分类专栏： Deep Learning 文章标签： python 深度学习机器学习

于 2022-08-23 22:23:26 首次发布

本文链接：https://blog.csdn.net/qq_42283621/article/details/126494113

版权

Deep Learning 专栏收录该内容

34 篇文章 1 订阅

订阅专栏

该博客介绍了如何运用SkipThoughts模型将多个句子转化为4800维特征向量。参照word2vec的skip-gram模型，通过中间句子预测上下文句子，实现句子级别的表示学习。安装环境包括Theano、Scikit-learn、NLTK、Keras和Gensim等库，并提供了项目下载链接及测试代码示例。

摘要由CSDN通过智能技术生成

官方github

参考博客

环境已保存到矩池云

将多个句子(str list) -> 多个特征向量(numpy array dtype=float32 shape=[n, 4800])

理论部分

参照word2vec的skip-gram模型思想，拓展到句子级别，用中间的句子来预测上下文两个句子，上图中虚线框内隐藏层输出即为整个输入句子的4800d特征。

安装环境

conda create -n SkipThoughts python=2.7
conda activate SkipThoughts
pip install theano==1.0.4
pip install scikit-learn==0.20.4
pip install nltk==3.1
pip install keras==2.9.0
pip install gensim==3.8.3

下载项目

二选一：

按照参考博客或官方github中的完整步骤
从下方百度网盘中下载2个压缩包，解压后进入skip-thoughts-master目录

链接：https://pan.baidu.com/s/12x_6hrEX-rWw1TluQO5UdQ?pwd=x555
提取码：x555

测试

运行data目录下的main.py

# main.py

import skipthoughts

model = skipthoughts.load_model()
encoder = skipthoughts.Encoder(model)
x = ['Hello world', 'This is a test sentence']
vec = encoder.encode(x)
print vec
print vec.shape

# 运行结果
# numpy array dtype=float32 shape=[n, 4800]

[[ 0.00759725 -0.02385723 -0.00653511 ... -0.00756364 -0.00080156
   0.00343018]
 [ 0.01462886 -0.00813354  0.00445716 ... -0.05013087 -0.04203623
   0.01157508]]
(2, 4800)