安装skip-thoughts提取句子特征

该博客介绍了如何运用SkipThoughts模型将多个句子转化为4800维特征向量。参照word2vec的skip-gram模型,通过中间句子预测上下文句子,实现句子级别的表示学习。安装环境包括Theano、Scikit-learn、NLTK、Keras和Gensim等库,并提供了项目下载链接及测试代码示例。
摘要由CSDN通过智能技术生成

官方github

参考博客

环境已保存到矩池云

将 多个句子(str list) -> 多个特征向量(numpy array dtype=float32 shape=[n, 4800])

理论部分

image-20220919104849929

参照word2vec的skip-gram模型思想,拓展到句子级别,用中间的句子来预测上下文两个句子,上图中虚线框内隐藏层输出即为整个输入句子的4800d特征。

安装环境

conda create -n SkipThoughts python=2.7
conda activate SkipThoughts
pip install theano==1.0.4
pip install scikit-learn==0.20.4
pip install nltk==3.1
pip install keras==2.9.0
pip install gensim==3.8.3

下载项目

二选一:

  1. 按照参考博客官方github中的完整步骤

  2. 从下方百度网盘中下载2个压缩包,解压后进入skip-thoughts-master目录

    链接:https://pan.baidu.com/s/12x_6hrEX-rWw1TluQO5UdQ?pwd=x555
    提取码:x555

测试

运行data目录下的main.py

# main.py

import skipthoughts

model = skipthoughts.load_model()
encoder = skipthoughts.Encoder(model)
x = ['Hello world', 'This is a test sentence']
vec = encoder.encode(x)
print vec
print vec.shape
# 运行结果
# numpy array dtype=float32 shape=[n, 4800]

[[ 0.00759725 -0.02385723 -0.00653511 ... -0.00756364 -0.00080156
   0.00343018]
 [ 0.01462886 -0.00813354  0.00445716 ... -0.05013087 -0.04203623
   0.01157508]]
(2, 4800)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MallocLu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值